論文の概要: Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward
- arxiv url: http://arxiv.org/abs/2602.00845v1
- Date: Sat, 31 Jan 2026 18:15:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.429217
- Title: Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward
- Title(参考訳): 合成意味情報ゲインリワードによる検索によるエージェント推論の最適化
- Authors: Senkang Hu, Yong Dai, Yuzhi Zhao, Yihang Tao, Yu Guo, Zhengru Fang, Sam Tak Wu Kwong, Yuguang Fang,
- Abstract要約: 本稿では, セマンティック情報獲得報酬による効果的な情報探索を動機付ける統合フレームワークを提案する。
7つの質問回答ベンチマークでの実験では、InfoReasonerは強力な検索強化ベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 24.738836592075927
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic reasoning enables large reasoning models (LRMs) to dynamically acquire external knowledge, but yet optimizing the retrieval process remains challenging due to the lack of dense, principled reward signals. In this paper, we introduce InfoReasoner, a unified framework that incentivizes effective information seeking via a synthetic semantic information gain reward. Theoretically, we redefine information gain as uncertainty reduction over the model's belief states, establishing guarantees, including non-negativity, telescoping additivity, and channel monotonicity. Practically, to enable scalable optimization without manual retrieval annotations, we propose an output-aware intrinsic estimator that computes information gain directly from the model's output distributions using semantic clustering via bidirectional textual entailment. This intrinsic reward guides the policy to maximize epistemic progress, enabling efficient training via Group Relative Policy Optimxization (GRPO). Experiments across seven question-answering benchmarks demonstrate that InfoReasoner consistently outperforms strong retrieval-augmented baselines, achieving up to 5.4% average accuracy improvement. Our work provides a theoretically grounded and scalable path toward agentic reasoning with retrieval.
- Abstract(参考訳): エージェント推論は、外部知識を動的に取得する大きな推論モデル(LRM)を可能にするが、高密度で原則化された報酬信号がないため、検索プロセスの最適化は依然として困難である。
本稿では,統合されたフレームワークであるInfoReasonerについて紹介する。
理論的には、モデルの信念状態に対する不確実性の低減として情報ゲインを再定義し、非負性性、テレスコープ付加性、チャネル単調性などの保証を確立する。
実際に,手動による検索アノテーションを使わずにスケーラブルな最適化を実現するため,双方向テキストによるセマンティッククラスタリングを用いて,モデルの出力分布から得られる情報を直接計算する出力認識型固有推定器を提案する。
この本質的な報酬は、疫学の進展を最大化するための政策を導いており、グループ相対的政策最適化(GRPO)による効率的なトレーニングを可能にしている。
7つの問合せベンチマークによる実験では、InfoReasonerは強力な検索強化ベースラインを一貫して上回り、平均精度が5.4%向上した。
我々の研究は、理論的に基礎を置き、検索を伴うエージェント推論へのスケーラブルな道を提供する。
関連論文リスト
- Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling [66.3072381478251]
Reward Hacking(報酬の過度な最適化)は依然として重要な課題だ。
本稿では,報奨モデル,すなわちInfoRMのためのフレームワークを提案する。
InfoRMの過度な最適化検出機構は、有効であるだけでなく、幅広いデータセットにわたって堅牢であることを示す。
論文 参考訳(メタデータ) (2024-02-14T17:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。