論文の概要: Scaling Search-Augmented LLM Reasoning via Adaptive Information Control
- arxiv url: http://arxiv.org/abs/2602.01672v1
- Date: Mon, 02 Feb 2026 05:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.929814
- Title: Scaling Search-Augmented LLM Reasoning via Adaptive Information Control
- Title(参考訳): 適応情報制御によるLLM推論のスケーリング
- Authors: Siheng Xiong, Oguzhan Gungordu, Blair Johnson, James C. Kerce, Faramarz Fekri,
- Abstract要約: 制御不能な検索は 冗長な証拠 文脈飽和 不安定な学習につながります
本稿では,情報ユーティリティの形式的概念に基づく適応型情報制御フレームワークDeepControlを提案する。
- 参考スコア(独自算出の注目度): 14.16242839257989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Search-augmented reasoning agents interleave multi-step reasoning with external information retrieval, but uncontrolled retrieval often leads to redundant evidence, context saturation, and unstable learning. Existing approaches rely on outcome-based reinforcement learning (RL), which provides limited guidance for regulating information acquisition. We propose DeepControl, a framework for adaptive information control based on a formal notion of information utility, which measures the marginal value of retrieved evidence under a given reasoning state. Building on this utility, we introduce retrieval continuation and granularity control mechanisms that selectively regulate when to continue and stop retrieval, and how much information to expand. An annealed control strategy enables the agent to internalize effective information acquisition behaviors during training. Extensive experiments across seven benchmarks demonstrate that our method consistently outperforms strong baselines. In particular, our approach achieves average performance improvements of 9.4% and 8.6% on Qwen2.5-7B and Qwen2.5-3B, respectively, over strong outcome-based RL baselines, and consistently outperforms both retrieval-free and retrieval-based reasoning methods without explicit information control. These results highlight the importance of adaptive information control for scaling search-augmented reasoning agents to complex, real-world information environments.
- Abstract(参考訳): 検索強化推論エージェントは、外部情報検索と多段階推論をインターリーブするが、制御されていない検索は、しばしば冗長なエビデンス、文脈飽和、不安定な学習をもたらす。
既存のアプローチは、情報取得を規制するための限られたガイダンスを提供する結果ベース強化学習(RL)に依存している。
本稿では,情報ユーティリティの形式的概念に基づく適応型情報制御フレームワークDeepControlを提案する。
本稿では,検索の継続と停止を選択的に規制する検索継続機構と粒度制御機構を導入する。
加熱制御戦略により、エージェントはトレーニング中に効果的な情報取得動作を内部化することができる。
7つのベンチマークによる大規模な実験は、我々の手法が強いベースラインを一貫して上回ることを示した。
特に,Qwen2.5-7BとQwen2.5-3Bの平均性能改善率は9.4%,Qwen2.5-3Bでは8.6%であった。
これらの結果は,検索強化推論エージェントを複雑で現実的な情報環境に拡張する上で,適応的な情報制御の重要性を強調した。
関連論文リスト
- Optimizing Agentic Reasoning with Retrieval via Synthetic Semantic Information Gain Reward [24.738836592075927]
本稿では, セマンティック情報獲得報酬による効果的な情報探索を動機付ける統合フレームワークを提案する。
7つの質問回答ベンチマークでの実験では、InfoReasonerは強力な検索強化ベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-31T18:15:50Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - Windsock is Dancing: Adaptive Multimodal Retrieval-Augmented Generation [19.543168652651783]
マルチモーダル大規模言語モデル(MLLM)の現実的かつ最新の応答を生成するための有望な手法として,MRAG(Multimodal Retrieval-Augmented Generation)が登場した。
既存のMRAGアプローチは、静的検索戦略、非フレキシブルなモダリティ選択、および検索された情報の準最適利用に悩まされている。
我々は、検索の必要性とモダリティの選択を判断するクエリ依存モジュールであるWindsockを導入し、計算オーバーヘッドを効果的に削減し、応答品質を向上させる。
論文 参考訳(メタデータ) (2025-10-26T14:36:16Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay [69.67914133280296]
強化学習(RL)は、大規模言語モデル(LLM)の微調整に有効なアプローチとなっている。
LLM RLファインチューニングにおけるデータ効率向上のための2つの手法を提案する。
本手法は,従来のGRPOアルゴリズムと同等の性能を示しながら,RLの微調整時間を23%から62%削減する。
論文 参考訳(メタデータ) (2025-06-05T17:55:43Z) - Scent of Knowledge: Optimizing Search-Enhanced Reasoning with Information Foraging [11.377241012645994]
InForageは、動的情報探索プロセスとして検索強化推論を形式化する強化学習フレームワークである。
我々は,複雑な実世界のWebタスクに対する反復探索と推論のトラジェクトリをキャプチャするヒューマンガイドデータセットを構築した。
これらの結果は、堅牢で適応的で効率的な推論エージェントの構築におけるInForageの有効性を強調している。
論文 参考訳(メタデータ) (2025-05-14T12:13:38Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - The Challenges of Exploration for Offline Reinforcement Learning [8.484491887821473]
本稿では,情報的経験の収集と最適な行動の推測という,強化学習の2つのプロセスについて考察する。
データ収集のタスクに依存しない設定は、タスクが優先順位を分かっていないが、特に興味がある。
我々は、この分離されたフレームワークを使用して、探索に関する直感と効果的なオフラインRLのためのデータ前提条件を強化する。
論文 参考訳(メタデータ) (2022-01-27T23:59:56Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。