論文の概要: ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards
- arxiv url: http://arxiv.org/abs/2510.00568v1
- Date: Wed, 01 Oct 2025 06:44:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.423039
- Title: ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards
- Title(参考訳): ReSeek: インストラクティブ・リワードのある検索エージェントのための自己修正フレームワーク
- Authors: Shiyu Li, Yang Tang, Yifan Wang, Peiming Li, Xi Chen,
- Abstract要約: 本稿では,検索エージェントを訓練するための自己修正フレームワークであるReSeekを提案する。
本フレームワークでは,誤探索経路からエージェントを動的に識別・復元する自己補正機構を導入している。
既存のデータセットにおけるデータ汚染のリスクを軽減するため、FictionalHotを導入する。
- 参考スコア(独自算出の注目度): 18.92867715736209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Search agents powered by Large Language Models (LLMs) have demonstrated significant potential in tackling knowledge-intensive tasks. Reinforcement learning (RL) has emerged as a powerful paradigm for training these agents to perform complex, multi-step reasoning. However, prior RL-based methods often rely on sparse or rule-based rewards, which can lead agents to commit to suboptimal or erroneous reasoning paths without the ability to recover. To address these limitations, we propose ReSeek, a novel self-correcting framework for training search agents. Our framework introduces a self-correction mechanism that empowers the agent to dynamically identify and recover from erroneous search paths during an episode. By invoking a special JUDGE action, the agent can judge the information and re-plan its search strategy. To guide this process, we design a dense, instructive process reward function, which decomposes into a correctness reward for retrieving factual information and a utility reward for finding information genuinely useful for the query. Furthermore, to mitigate the risk of data contamination in existing datasets, we introduce FictionalHot, a new and challenging benchmark with recently curated questions requiring complex reasoning. Being intuitively reasonable and practically simple, extensive experiments show that agents trained with ReSeek significantly outperform SOTA baselines in task success rate and path faithfulness.
- Abstract(参考訳): LLM(Large Language Models)を利用した検索エージェントは、知識集約的なタスクに対処する上で大きな可能性を示している。
強化学習(RL)は、複雑な多段階推論を行うためにこれらのエージェントを訓練するための強力なパラダイムとして登場した。
しかし、以前のRLベースの手法は、しばしばスパースやルールベースの報酬に依存しており、エージェントが回復する能力のない最適または誤った推論パスにコミットする可能性がある。
これらの制約に対処するために,検索エージェントを訓練するための新しい自己修正フレームワークであるReSeekを提案する。
本フレームワークでは,エピソード中の誤った検索経路を動的に識別・復元する自己補正機構を導入している。
特別のJUDGEアクションを呼び出すことにより、エージェントは情報を判断し、検索戦略を再計画することができる。
このプロセスを導くために,我々は,事実情報を取得するための正当性報酬と,クエリに真に有用な情報を見つけるための実用性報酬に分解した,密集した命令的プロセス報酬関数を設計する。
さらに、既存のデータセットにおけるデータ汚染のリスクを軽減するために、複雑な推論を必要とする最近キュレーションされた質問を伴う新しい、挑戦的なベンチマークであるFictionalHotを紹介します。
ReSeekで訓練されたエージェントは、直感的に合理的で実用的な実験によって、タスク成功率とパス忠実度においてSOTAのベースラインを著しく上回っている。
関連論文リスト
- RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - Scalable and Robust LLM Unlearning by Correcting Responses with Retrieved Exclusions [49.55618517046225]
Webスケールのコーパスリスクを記憶し、センシティブな情報を暴露する言語モデル。
本稿では,新しいアンラーニングフレームワークであるCorrective Unlearning with Retrieved Exclusions (CURE)を提案する。
CUREは、リークのモデル出力を確認し、安全な応答に修正する。
論文 参考訳(メタデータ) (2025-09-30T09:07:45Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [4.817888539036794]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。
実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。
この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:27:54Z) - Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning [35.35813310224967]
大きな言語モデルは印象的な推論能力を示してきたが、本質的には知識貯水池によって制限されている。
Retrieval-augmented reasoningは、LCMが外部リソースをクエリできるようにすることによって、この制限を緩和する。
本稿では,新しい「探索・復調思考」パラダイムを取り入れた強化学習フレームワークであるAutoRefineを提案する。
論文 参考訳(メタデータ) (2025-05-16T14:11:29Z) - RAR-b: Reasoning as Retrieval Benchmark [7.275757292756447]
我々は、推論タスクを検索タスクに変換し、レトリバーモデルに格納された推論能力を評価する。
最近のデコーダベースの埋め込みモデルは、ギャップを狭めることに非常に有望である。
Reasoning as Retrieval Benchmark (RAR-b) は、検索モデルに格納された推論能力を評価するためのタスクと設定の総合的なスイートである。
論文 参考訳(メタデータ) (2024-04-09T14:34:48Z) - Solving Offline Reinforcement Learning with Decision Tree Regression [0.0]
本研究は, オフライン強化学習問題に対して, 回帰タスクとして再検討することで, 新たなアプローチを提案する。
我々は、リターン条件付きとリターン重み付き決定ツリーポリシーの2つの異なるフレームワークを紹介します。
オフラインRLに対するこの改定されたアプローチに固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法と同等の性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - A Survey on Explainable Reinforcement Learning: Concepts, Algorithms, Challenges [51.699348215510575]
強化学習(Reinforcement Learning, RL)は、インテリジェントエージェントが環境と対話して長期的な目標を達成する、一般的な機械学習パラダイムである。
励ましの結果にもかかわらず、ディープニューラルネットワークベースのバックボーンは、専門家が高いセキュリティと信頼性が不可欠である現実的なシナリオにおいて、訓練されたエージェントを信頼し、採用することを妨げるブラックボックスとして広く見なされている。
この問題を緩和するために、本質的な解釈可能性やポストホックな説明可能性を構築することにより、知的エージェントの内部動作に光を放つための大量の文献が提案されている。
論文 参考訳(メタデータ) (2022-11-12T13:52:06Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。