論文の概要: InfoFlow: Reinforcing Search Agent Via Reward Density Optimization
- arxiv url: http://arxiv.org/abs/2510.26575v1
- Date: Thu, 30 Oct 2025 15:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.871244
- Title: InfoFlow: Reinforcing Search Agent Via Reward Density Optimization
- Title(参考訳): InfoFlow:Reinforcecing Search Agent Via Reward Density Optimization
- Authors: Kun Luo, Hongjin Qian, Zheng Liu, Ziyi Xia, Shitao Xiao, Siqi Bao, Jun Zhao, Kang Liu,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) はエージェントディープサーチを強化するための有望なアプローチである。
本稿では,この課題を,探索費用単位当たりの報酬改善を目的としたtextbfReward Density Optimization 問題として定式化する。
この問題に3つの側面から対処する体系的なフレームワークである textbfInfoFlow を紹介します。
- 参考スコア(独自算出の注目度): 37.266452141225415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a promising approach for enhancing agentic deep search. However, its application is often hindered by low \textbf{Reward Density} in deep search scenarios, where agents expend significant exploratory costs for infrequent and often null final rewards. In this paper, we formalize this challenge as the \textbf{Reward Density Optimization} problem, which aims to improve the reward obtained per unit of exploration cost. This paper introduce \textbf{InfoFlow}, a systematic framework that tackles this problem from three aspects. 1) \textbf{Subproblem decomposition}: breaking down long-range tasks to assign process rewards, thereby providing denser learning signals. 2) \textbf{Failure-guided hints}: injecting corrective guidance into stalled trajectories to increase the probability of successful outcomes. 3) \textbf{Dual-agent refinement}: employing a dual-agent architecture to offload the cognitive burden of deep exploration. A refiner agent synthesizes the search history, which effectively compresses the researcher's perceived trajectory, thereby reducing exploration cost and increasing the overall reward density. We evaluate InfoFlow on multiple agentic search benchmarks, where it significantly outperforms strong baselines, enabling lightweight LLMs to achieve performance comparable to advanced proprietary LLMs.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) はエージェントディープサーチを強化するための有望なアプローチである。
しかし、その応用はディープ・サーチ・シナリオにおいて低い textbf{Reward density} によって妨げられることが多く、エージェントは頻繁でしばしばヌルな最終報酬の探索コストを浪費する。
本稿では,この課題を,探索コスト単位当たりの報酬改善を目的とした「textbf{Reward Density Optimization}」問題として定式化する。
本稿では,この問題に3つの側面から対処する体系的なフレームワークである「textbf{InfoFlow}」を紹介する。
1) \textbf{Subproblem decomposition}: プロセス報酬を割り当てるために長距離タスクを分解し、より密集した学習信号を提供する。
2) \textbf{Failure-guided hints}: 成功の確率を高めるため、停止した軌道に修正ガイダンスを注入する。
3) \textbf{Dual-agent refinement}: 深層探査の認知的負担を和らげるために二重エージェントアーキテクチャを使用する。
精錬業者は、研究者の知覚軌道を効果的に圧縮し、探索コストを低減し、全体的な報酬密度を増大させる探索履歴を合成する。
我々は、InfoFlowを複数のエージェント検索ベンチマークで評価し、強力なベースラインを著しく上回り、軽量なLLMが高度なプロプライエタリなLLMに匹敵する性能を実現する。
関連論文リスト
- Search Self-play: Pushing the Frontier of Agent Capability without Supervision [14.889394507446477]
本稿では,ディープサーチエージェントのためのセルフプレイトレーニングを提案する。
探索セルフプレイ(SSP)ゲームにおいて、提案者と解決者は、競争と協力の両面からエージェント能力を共同開発する。
SSPは、様々なベンチマークにおいて、いかなる監督も受けずに、検索エージェントのパフォーマンスを均一に向上させることができる。
論文 参考訳(メタデータ) (2025-10-21T17:19:35Z) - HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation [21.08814504507274]
準最適探索行動は、オーバーサーチやアンダーサーチなど、広く存在する。
現在のトレーニング方法は、通常、RLフレームワークの成果ベースの報酬に依存するが、これらの非効率に対処するために必要なきめ細かい制御が欠如している。
我々は、RLトレーニングに詳細な知識に基づくプロセス報酬を組み込んだトレーニング手法であるHiPRAGを紹介する。
論文 参考訳(メタデータ) (2025-10-09T05:13:10Z) - Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。
実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。
この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:27:54Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。