論文の概要: Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents
- arxiv url: http://arxiv.org/abs/2510.04695v1
- Date: Mon, 06 Oct 2025 11:09:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.820095
- Title: Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents
- Title(参考訳): アウトカム・リワードを超えて: 検索と回答の分離がLLMエージェントを改善した
- Authors: Yiding Wang, Zhepei Wei, Xinyu Zhu, Yu Meng,
- Abstract要約: DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 19.31471304268234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling large language models (LLMs) to utilize search tools offers a promising path to overcoming fundamental limitations such as knowledge cutoffs and hallucinations. Recent work has explored reinforcement learning (RL) for training search-augmented agents that interleave reasoning and retrieval before answering. These approaches usually rely on outcome-based rewards (e.g., exact match), implicitly assuming that optimizing for final answers will also yield effective intermediate search behaviors. Our analysis challenges this assumption: we uncover multiple systematic deficiencies in search that arise under outcome-only training and ultimately degrade final answer quality, including failure to invoke tools, invalid queries, and redundant searches. To address these shortcomings, we introduce DeSA (Decoupling Search-and-Answering), a simple two-stage training framework that explicitly separates search optimization from answer generation. In Stage 1, agents are trained to improve search effectiveness with retrieval recall-based rewards. In Stage 2, outcome rewards are employed to optimize final answer generation. Across seven QA benchmarks, DeSA-trained agents consistently improve search behaviors, delivering substantially higher search recall and answer accuracy than outcome-only baselines. Notably, DeSA outperforms single-stage training approaches that simultaneously optimize recall and outcome rewards, underscoring the necessity of explicitly decoupling the two objectives.
- Abstract(参考訳): 大規模言語モデル(LLM)を検索ツールに活用することは、知識の遮断や幻覚といった基本的な限界を克服するための有望な道筋を提供する。
最近の研究は、回答する前に推論と検索をインターリーブする検索強化エージェントの訓練のための強化学習(RL)を探求している。
これらのアプローチは通常、結果に基づく報酬(例えば、正確な一致)に依存し、最終回答の最適化が効果的な中間探索行動をもたらすことを暗黙的に仮定する。
結果のみのトレーニングで発生する複数の体系的欠陥を発見し、最終的に最終回答の品質を低下させ、ツールの呼び出しの失敗、不正なクエリ、冗長な検索を行う。
これらの欠点に対処するため,DeSA(Decoupling Search-and-Answering)を導入し,検索最適化と回答生成を明確に分離する2段階トレーニングフレームワークを提案する。
ステージ1では、エージェントは検索効率を向上させるために、リコールベースの報酬によって訓練される。
ステージ2では、最終的な回答生成を最適化するために結果報酬が使用されます。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
特にDeSAは、リコールと結果報酬を同時に最適化するシングルステージトレーニングアプローチよりも優れており、この2つの目標を明示的に分離する必要性を強調している。
関連論文リスト
- RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play [45.02121903138421]
AceSearcherは1つの大きな言語モデル(LLM)をトレーニングし、複雑なクエリを分解するデコンポスタと、検索したコンテキストを統合して回答生成するソルバという2つの役割を交互に行う。
10データセットにわたる3つの推論集約タスクの実験は、AceSearcherが最先端のベースラインを上回り、平均的な正確なマッチング改善を7.6%達成していることを示している。
論文 参考訳(メタデータ) (2025-09-29T02:14:30Z) - Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。
エージェント検索フレームワークであるEXSEARCHを提案する。
4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-26T15:27:55Z) - Demystifying and Enhancing the Efficiency of Large Language Model Based Search Agents [9.862334188345791]
大規模言語モデル(LLM)に基づく検索エージェントは,複雑なタスクを解く際,顕著な能力を示した。
LLMベースの検索エージェントのための高効率推論フレームワークであるSearchAgent-Xを紹介する。
SearchAgent-Xは、vLLMやHNSWベースの検索のような最先端システムよりも一貫して優れている。
論文 参考訳(メタデータ) (2025-05-17T16:07:01Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。