Fugu-MT 論文翻訳(概要): CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search

論文の概要: CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search

arxiv url: http://arxiv.org/abs/2604.17555v2
Date: Tue, 21 Apr 2026 18:00:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:10.359642
Title: CoSearch: Joint Training of Reasoning and Document Ranking via Reinforcement Learning for Agentic Search
Title（参考訳）: CoSearch: エージェント検索のための強化学習による推論と文書ランク付けの共同訓練
Authors: Hansi Zeng, Liam Collins, Bhuvesh Kumar, Neil Shah, Hamed Zamani,
Abstract要約: CoSearchは多段階推論エージェントと生成ドキュメントランキングモデルを共同でトレーニングするフレームワークである。この結果から, 推論エージェントと検索システムの協調訓練は, 実現可能であり, 性能も高いことが示唆された。
参考スコア（独自算出の注目度）: 51.911048955965136
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic search -- the task of training agents that iteratively reason, issue queries, and synthesize retrieved information to answer complex questions -- has achieved remarkable progress through reinforcement learning (RL). However, existing approaches such as Search-R1, treat the retrieval system as a fixed tool, optimizing only the reasoning agent while the retrieval component remains unchanged. A preliminary experiment reveals that the gap between an oracle and a fixed retrieval system reaches up to +26.8% relative F1 improvement across seven QA benchmarks, suggesting that the retrieval system is a key bottleneck in scaling agentic search performance. Motivated by this finding, we propose CoSearch, a framework that jointly trains a multi-step reasoning agent and a generative document ranking model via Group Relative Policy Optimization (GRPO). To enable effective GRPO training for the ranker -- whose inputs vary across reasoning trajectories -- we introduce a semantic grouping strategy that clusters sub-queries by token-level similarity, forming valid optimization groups without additional rollouts. We further design a composite reward combining ranking quality signals with trajectory-level outcome feedback, providing the ranker with both immediate and long-term learning signals. Experiments on seven single-hop and multi-hop QA benchmarks demonstrate consistent improvements over strong baselines, with ablation studies validating each design choice. Our results show that joint training of the reasoning agent and retrieval system is both feasible and strongly performant, pointing to a key ingredient for future search agents.
Abstract（参考訳）: エージェントサーチ(エージェントサーチ) -- 反復的に推論を行い、問い合わせを発行し、複雑な質問に答えるために検索された情報を合成する訓練エージェントのタスク - は、強化学習(RL)を通じて顕著な進歩を遂げた。しかし、検索-R1のような既存のアプローチでは、検索システムを固定的なツールとして扱い、検索コンポーネントが変更されていない間に推論エージェントのみを最適化する。予備実験では、7つのQAベンチマークにおいて、オラクルと固定検索システムのギャップが最大で26.8%の相対的なF1改善に達しており、検索システムがエージェント検索性能のスケーリングにおける重要なボトルネックであることを示唆している。この発見を動機として,多段階推論エージェントと生成文書ランキングモデルをGRPO(Group Relative Policy Optimization)を介して共同でトレーニングするフレームワークであるCoSearchを提案する。そこで我々は,トークンレベルの類似性によってサブクエリをクラスタ化するセマンティックグルーピング戦略を導入し,ロールアウトなしで有効な最適化グループを作成する。さらに、ランク付け品質信号と軌道レベルの結果フィードバックを組み合わせた複合報酬を設計し、即時学習信号と長期学習信号の両方をランク付けする。 7つのシングルホップおよびマルチホップQAベンチマークの実験では、強いベースラインよりも一貫した改善が示されている。本研究の結果から, 推論エージェントと検索システムの協調訓練は, 実現可能かつ強力であり, 将来の検索エージェントの鍵となる要素を指し示している。

関連論文リスト

MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn Reinforcement Learning [74.07254720088926]
長文の視覚的質問応答に対処するために,エージェント型視覚認識ワークフローを利用する新しいフレームワークMM-Doc-R1を紹介する。 GRPOのような既存のマルチターン強化学習(RL)アルゴリズムにおけるベースライン推定バイアスに対処する、類似性に基づくポリシー最適化(SPO)を提案する。 MMLongbench-Docベンチマークの実験では、MM-Doc-R1が以前のベースラインを10.4%上回る結果となった。
論文参考訳（メタデータ） (2026-04-15T07:39:08Z)
PRAISE: Prefix-Based Rollout Reuse in Agentic Search Training [28.912613644535668]
本稿では,エージェント検索訓練におけるデータ効率向上のためのフレームワークPRAISEを提案する。本手法は,検索ポリシー学習とプレフィックス応答評価の両方に,単一の共有モデルを用いる。マルチホップQAベンチマークの実験では、PRAISEは強いベースラインよりも一貫してパフォーマンスを改善している。
論文参考訳（メタデータ） (2026-04-04T10:23:46Z)
Learning to Retrieve from Agent Trajectories [72.8923565916533]
我々はエージェント間相互作用データから直接エージェント探索のための検索モデルを訓練すべきであると主張している。エージェント・トラジェクトリからの学習を新たな訓練パラダイムとして導入し,マルチステップエージェントのインタラクションから指導を導出する。本研究は,エージェント探索時代における検索の方向性を示すとともに,エージェントトラジェクトリを実用的でスケーラブルな監視源として強調するものである。
論文参考訳（メタデータ） (2026-03-30T17:59:02Z)
APEX-Searcher: Augmenting LLMs' Search Capabilities through Agentic Planning and Execution [10.643859464982071]
APEX-Searcherは、大規模言語モデル(LLM)検索能力を増強する新しいエージェントプランニングおよび実行フレームワークである。戦略計画の最適化のために、まずRLを分解特異的な報酬として採用する。その後、高品質なマルチホップ軌道の教師付き微調整を適用し、ロバストな反復的なサブタスク実行能力を持つモデルに装備する。
論文参考訳（メタデータ） (2026-03-14T09:17:12Z)
Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文参考訳（メタデータ） (2026-02-03T15:32:09Z)
When should I search more: Adaptive Complex Query Optimization with Reinforcement Learning [26.489185170468062]
適応複雑クエリ最適化(ACQO)と呼ばれる新しいRLフレームワークを提案する。我々のフレームワークは、いつ、どのように検索プロセスを拡張するかを適応的に決定するように設計されている。 ACQOは3つの複雑なクエリベンチマークで最先端のパフォーマンスを達成し、確立されたベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2026-01-29T03:16:53Z)
Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。 EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。 EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文参考訳（メタデータ） (2025-12-23T08:14:44Z)
Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。 7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文参考訳（メタデータ） (2025-10-06T11:09:45Z)
Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。