論文の概要: SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent
- arxiv url: http://arxiv.org/abs/2602.11551v1
- Date: Thu, 12 Feb 2026 04:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.634662
- Title: SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent
- Title(参考訳): SIGHT:検索エージェントのための自己エビデンスと情報ゲインディバースブランチによる強化学習
- Authors: Wenlin Zhong, Jinluan Yang, Yiquan Wu, Yi Liu, Jianhang Yao, Kun Kuang,
- Abstract要約: SIGHTは、セルフエビデンスサポートと情報ゲイン駆動のディバースブランチを通じて、検索ベースの推論を強化するフレームワークである。
SIGHTは、検索結果をSESを介して高忠実性証拠に蒸留し、インフォメーションゲインスコアを算出して、重要な状態を特定する。
シングルホップとマルチホップのQAベンチマークの実験では、SIGHTが既存のアプローチを大幅に上回っていることが示されている。
- 参考スコア(独自算出の注目度): 39.43590030917357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) has empowered Large Language Models (LLMs) to master autonomous search for complex question answering. However, particularly within multi-turn search scenarios, this interaction introduces a critical challenge: search results often suffer from high redundancy and low signal-to-noise ratios. Consequently, agents easily fall into "Tunnel Vision," where the forced interpretation of early noisy retrievals leads to irreversible error accumulation. To address these challenges, we propose SIGHT, a framework that enhances search-based reasoning through Self-Evidence Support (SES) and Information-Gain Driven Diverse Branching. SIGHT distills search results into high-fidelity evidence via SES and calculates an Information Gain score to pinpoint pivotal states where observations maximally reduce uncertainty. This score guides Dynamic Prompting Interventions - including de-duplication, reflection, or adaptive branching - to spawn new branches with SES. Finally, by integrating SES and correctness rewards via Group Relative Policy Optimization, SIGHT internalizes robust exploration strategies without external verifiers. Experiments on single-hop and multi-hop QA benchmarks demonstrate that SIGHT significantly outperforms existing approaches, particularly in complex reasoning scenarios, using fewer search steps.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)に複雑な質問応答のための自律的な探索を習得させる権限を与えている。
しかし、特にマルチターン検索のシナリオにおいて、この相互作用は重要な課題をもたらす: 検索結果は、しばしば高い冗長性と低信号対雑音比に悩まされる。
その結果、エージェントは容易に"トンネルビジョン"に陥り、初期ノイズ検索の強制的な解釈は、不可逆的なエラーの蓄積につながる。
これらの課題に対処するため、SIGHTは、自己エビデンスサポート(SES)と情報ゲイン駆動多元分岐(Information-Gain-Driven Diverse Branching)を通じて、検索に基づく推論を強化するフレームワークを提案する。
SIGHTは、検索結果をSESを介して高忠実性証拠に蒸留し、インフォメーションゲインスコアを算出して、観測が最大で不確実性を減少させる重要な状態を特定する。
このスコアは、非重複、リフレクション、アダプティブブランチを含むDynamic Prompting Interventionsをガイドし、SESで新しいブランチを生成する。
最後に、SESと正当性報酬をグループ相対政策最適化を通じて統合することにより、SIGHTは外部検証なしで堅牢な探索戦略を内包する。
シングルホップとマルチホップのQAベンチマークの実験では、SIGHTが既存のアプローチ、特に複雑な推論シナリオにおいて、検索ステップを減らして大幅に上回っていることが示されている。
関連論文リスト
- Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - ARES: Multimodal Adaptive Reasoning via Difficulty-Aware Token-Level Entropy Shaping [54.37497695483689]
本稿では,タスクの難易度に基づいて探索作業を動的に割り当てる適応推論のための統合フレームワークであるARESを提案する。
単一トークンエントロピーはノイズが多いが,高いウィンドウエントロピー(HWE)トークンは推論クリティカルな瞬間を確実に捉えることができる。
In the Adaptive Cold-Start stage, we curate multimodal and textual data paired with reasoning traces of length proportional to problem difficulty。
第2段階では,HWEトークンを探索トリガとする適応エントロピーポリシー最適化(AEPO)を開発する。
論文 参考訳(メタデータ) (2025-10-09T17:03:28Z) - RE-Searcher: Robust Agentic Search with Goal-oriented Planning and Self-reflection [55.125987985864896]
環境の複雑さが脆弱な探索行動をいかに引き起こすかを定量的に分析する。
本稿では,検索エージェントRE-Searcherのインスタンス化をシンプルかつ効果的に行う手法を提案する。
この目標指向計画と自己回帰の組み合わせにより、RE-Searcherは複雑な検索環境における急激な手がかりに抵抗することができる。
論文 参考訳(メタデータ) (2025-09-30T10:25:27Z) - Search and Refine During Think: Facilitating Knowledge Refinement for Improved Retrieval-Augmented Reasoning [35.35813310224967]
大きな言語モデルは印象的な推論能力を示してきたが、本質的には知識貯水池によって制限されている。
Retrieval-augmented reasoningは、LCMが外部リソースをクエリできるようにすることによって、この制限を緩和する。
本稿では,新しい「探索・復調思考」パラダイムを取り入れた強化学習フレームワークであるAutoRefineを提案する。
論文 参考訳(メタデータ) (2025-05-16T14:11:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。