論文の概要: PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training
- arxiv url: http://arxiv.org/abs/2604.03675v1
- Date: Sat, 04 Apr 2026 10:23:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.716594
- Title: PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training
- Title(参考訳): PRAISE: エージェント検索トレーニングにおけるプレフィックスベースのロールアウト再利用
- Authors: Erhan Zhang, Yiqun Chen, Zechun Niu, Wei Yang, Xiaochi Wei, Yan Gao, Yi Wu, Yao Hu, Jiaxin Mao,
- Abstract要約: 本稿では,エージェント検索訓練におけるデータ効率向上のためのフレームワークPRAISEを提案する。
本手法は,検索ポリシー学習とプレフィックス応答評価の両方に,単一の共有モデルを用いる。
マルチホップQAベンチマークの実験では、PRAISEは強いベースラインよりも一貫してパフォーマンスを改善している。
- 参考スコア(独自算出の注目度): 28.912613644535668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In agentic search, large language models (LLMs) are trained to perform multi-turn retrieval and reasoning for complex tasks such as multi-hop question answering (QA). However, current search-based Reinforcement Learning (RL) methods suffer from two core limitations: expensive long-horizon rollouts are under-utilized during training, and supervision is typically available only at the final answer, resulting in severe reward sparsity. We present Prefix-based Rollout reuse for Agentic search with Intermediate Step rEwards (PRAISE), a framework for improving both data efficiency and credit assignment in agentic search training. Given a complete search trajectory, PRAISE extracts prefix states at different search turns, elicits intermediate answers from them, and uses these prefixes both to construct additional training trajectories and to derive step-level rewards from performance differences across prefixes. Our method uses a single shared model for both search policy learning and prefix answer evaluation, enabling joint optimization without extra human annotations or a separate reward model. Experiments on multi-hop QA benchmarks show that PRAISE consistently improves performance over strong baselines.
- Abstract(参考訳): エージェント検索では,マルチターン検索やマルチホップ質問応答(QA)などの複雑なタスクの推論を行うために,大規模言語モデル(LLM)を訓練する。
しかし、現在の検索ベースの強化学習(Reinforcement Learning, RL)手法は、トレーニング中に高価なロングホライゾンのロールアウトが未使用であり、監視は最終回答でのみ利用可能であり、結果として深刻な報酬の分散をもたらす。
エージェント検索訓練におけるデータ効率とクレジット割り当ての両方を改善するためのフレームワークであるPRAISE(Intermediate Step rEwards)を用いたエージェント検索のためのPrefixベースのロールアウト再利用を提案する。
PRAISEは、完全な探索軌跡を与えられた後、異なる探索旋回におけるプレフィックス状態を抽出し、それらから中間回答を抽出し、これらのプレフィックスを使用して追加のトレーニング軌跡を構築し、プレフィックス間のパフォーマンス差からステップレベルの報酬を導出する。
提案手法では,検索ポリシー学習とプレフィックス応答評価の両方に単一共有モデルを用いて,追加のアノテーションや報酬モデルを使わずに共同最適化を行う。
マルチホップQAベンチマークの実験では、PRAISEは強いベースラインよりも一貫してパフォーマンスを改善している。
関連論文リスト
- APEX-Searcher: Augmenting LLMs' Search Capabilities through Agentic Planning and Execution [10.643859464982071]
APEX-Searcherは、大規模言語モデル(LLM)検索能力を増強する新しいエージェントプランニングおよび実行フレームワークである。
戦略計画の最適化のために、まずRLを分解特異的な報酬として採用する。
その後、高品質なマルチホップ軌道の教師付き微調整を適用し、ロバストな反復的なサブタスク実行能力を持つモデルに装備する。
論文 参考訳(メタデータ) (2026-03-14T09:17:12Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - Agentic-R: Learning to Retrieve for Agentic Search [82.43426728778418]
エージェント検索に適した新しい検索学習フレームワークを提案する。
単一ターン検索拡張生成(RAG)用に設計された検索器とは違って,局所的なクエリ・パスの関連性とグローバルな回答の正当性を両立することを提案する。
我々のレトリバーは、我々のものとよばれ、異なる検索エージェント間で強いベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-17T02:59:54Z) - Search Self-play: Pushing the Frontier of Agent Capability without Supervision [14.889394507446477]
本稿では,ディープサーチエージェントのためのセルフプレイトレーニングを提案する。
探索セルフプレイ(SSP)ゲームにおいて、提案者と解決者は、競争と協力の両面からエージェント能力を共同開発する。
SSPは、様々なベンチマークにおいて、いかなる監督も受けずに、検索エージェントのパフォーマンスを均一に向上させることができる。
論文 参考訳(メタデータ) (2025-10-21T17:19:35Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - ReSearch: Learning to Reason with Search for LLMs via Reinforcement Learning [74.65632662894086]
本稿では,強化学習を通じてLLMをReason with Searchに学習するフレームワークであるReSearchを提案する。
提案手法では,検索操作を推論チェーンの不可欠な要素として扱う。
分析によると、ReSearchは自然にリフレクションや自己訂正のような高度な推論機能を引き出す。
論文 参考訳(メタデータ) (2025-03-25T09:00:58Z) - Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
既存のアクティブ検索手法は2つの課題に直面している。
彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。
それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文 参考訳(メタデータ) (2024-06-18T12:09:02Z) - ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search [50.45155830888697]
ReST-MCTS*と呼ばれる強化された自己学習手法を開発し、プロセス報酬指導と木探索MCTS*を統合して、高品質な推論トレースを収集し、ポリシーや報酬モデルにステップごとの価値を学習する。
ReST-MCTS* における木探索ポリシーは,Best-of-N や Tree-of-Thought といった従来の LLM 推論ベースラインと比較して,同じ検索予算内で高い精度を達成できることを示す。
論文 参考訳(メタデータ) (2024-06-06T07:40:00Z) - Zero-Shot Retrieval with Search Agents and Hybrid Environments [8.017306481455778]
現在の言語モデルは、伝統的な用語ベースの検索と組み合わせて、シンボリックなクエリ再構成ポリシーを学習することができるが、より優れたニューラル検索には及ばない。
本稿では,2つのエンコーダを経由した1回目検索の後に,個別のクエリ精算操作を受け入れるハイブリッド環境に,従来の学習環境を拡張した。
BEIRタスクの実験では、動作クローンによって訓練されたサーチエージェントが、二重エンコーダレシーバーとクロスエンコーダリランカの組み合わせに基づいて、基礎となるサーチシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-09-30T13:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。