論文の概要: Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training
- arxiv url: http://arxiv.org/abs/2604.12967v1
- Date: Tue, 14 Apr 2026 17:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.574285
- Title: Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training
- Title(参考訳): Cycle-Consistent Search:サーチエージェント訓練のためのプロキシ・リワードとしての質問再構成可能性
- Authors: Sohyun An, Shuibenyang Yuan, Hayeon Lee, Cho-Jui Hsieh, Alexander Min,
- Abstract要約: Cycle-Consistent Searchは、検索エージェントを訓練するための金色のスーパービジョンのないフレームワークである。
CCSは教師付きベースラインに匹敵する性能を示す。
これらの結果から,CCSは金の監督が不可能な環境で検索エージェントを訓練するためのスケーラブルな訓練パラダイムを提供する可能性が示唆された。
- 参考スコア(独自算出の注目度): 80.20022221643414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has shown strong potential for optimizing search agents in complex information retrieval tasks. However, existing approaches predominantly rely on gold supervision, such as ground-truth answers, which is difficult to scale. To address this limitation, we propose Cycle-Consistent Search (CCS), a gold-supervision-free framework for training search agents, inspired by cycle-consistency techniques from unsupervised machine translation and image-to-image translation. Our key hypothesis is that an optimal search trajectory, unlike insufficient or irrelevant ones, serves as a lossless encoding of the question's intent. Consequently, a high-quality trajectory should preserve the information required to accurately reconstruct the original question, thereby inducing a reward signal for policy optimization. However, naive cycle-consistency objectives are vulnerable to information leakage, as reconstruction may rely on superficial lexical cues rather than the underlying search process. To reduce this effect, we apply information bottlenecks, including exclusion of the final response and named entity recognition (NER) masking of search queries. These constraints force reconstruction to rely on retrieved observations together with the structural scaffold, ensuring that the resulting reward signal reflects informational adequacy rather than linguistic redundancy. Experiments on question-answering benchmarks show that CCS achieves performance comparable to supervised baselines while outperforming prior methods that do not rely on gold supervision. These results suggest that CCS provides a scalable training paradigm for training search agents in settings where gold supervision is unavailable.
- Abstract(参考訳): 強化学習(RL)は,複雑な情報検索タスクにおいて,探索エージェントを最適化する強力な可能性を示している。
しかし、既存のアプローチは金の監督に大きく依存している。
この制限に対処するために,教師なし機械翻訳とイメージ・ツー・イメージ翻訳のサイクル一貫性技術に触発されて,検索エージェントを訓練するためのゴールド・スーパービジョン・フリー・フレームワークであるCycle-Consistent Search (CCS)を提案する。
我々のキーとなる仮説は、最適探索軌跡は、不十分なものや無関係なものとは異なり、質問の意図の無意味なエンコーディングとして機能する、というものである。
したがって、高品質な軌道は、元の質問を正確に再構築するために必要な情報を保持し、政策最適化のための報酬シグナルを誘導する必要がある。
しかし, 周期整合性の目的は情報漏洩に弱いため, 探索過程ではなく表面の語彙的手がかりに頼っている可能性がある。
この効果を低減するために、最終応答の排除や検索クエリの名前付きエンティティ認識(NER)マスキングなどの情報ボトルネックを適用した。
これらの制約により、復元は構造的な足場とともに回収された観測に頼らざるを得なくなり、結果として得られる報酬信号が言語的冗長性よりも情報的妥当性を反映することを保証する。
質問応答ベンチマークの実験では、CCSは監督された基準線に匹敵する性能を達成し、金の監督に依存しない先行手法よりも優れていた。
これらの結果から,CCSは金の監督が不可能な環境で検索エージェントを訓練するためのスケーラブルな訓練パラダイムを提供する可能性が示唆された。
関連論文リスト
- SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent [39.43590030917357]
SIGHTは、セルフエビデンスサポートと情報ゲイン駆動のディバースブランチを通じて、検索ベースの推論を強化するフレームワークである。
SIGHTは、検索結果をSESを介して高忠実性証拠に蒸留し、インフォメーションゲインスコアを算出して、重要な状態を特定する。
シングルホップとマルチホップのQAベンチマークの実験では、SIGHTが既存のアプローチを大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-12T04:16:55Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - RE-TRAC: REcursive TRAjectory Compression for Deep Search Agents [144.5598958575922]
Re-TRACはクロス軌道探索を行うエージェントフレームワークである。
Re-TRAC は BrowseComp とフロンティア LLM で連続して ReAct を 15-20% 上回っていることを示す。
論文 参考訳(メタデータ) (2026-02-02T18:58:07Z) - Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - Beyond Monolithic Architectures: A Multi-Agent Search and Knowledge Optimization Framework for Agentic Search [56.78490647843876]
エージェント検索は、大規模言語モデル(LLM)が推論とツールの使用をインターリーブできるようにすることによって、複雑な情報を探すための有望なパラダイムとして登場した。
本稿では,bfM-ASKを提案する。bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK,bfM-ASK。
論文 参考訳(メタデータ) (2026-01-08T08:13:27Z) - CriticSearch: Fine-Grained Credit Assignment for Search Agents via a Retrospective Critic [24.371889836599138]
CriticSearchは詳細なクレジット割り当てフレームワークで、振り返りの批判メカニズムを通じて、密集したターンレベルのフィードバックを提供する。
様々なマルチホップ推論ベンチマークの実験結果は、CriticSearchが既存のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-11-15T11:06:57Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - ReSeek: A Self-Correcting Framework for Search Agents with Instructive Rewards [18.92867715736209]
本稿では,検索エージェントを訓練するための自己修正フレームワークであるReSeekを提案する。
本フレームワークでは,誤探索経路からエージェントを動的に識別・復元する自己補正機構を導入している。
既存のデータセットにおけるデータ汚染のリスクを軽減するため、FictionalHotを導入する。
論文 参考訳(メタデータ) (2025-10-01T06:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。