論文の概要: InfoFlow: Reinforcing Search Agent Via Reward Density Optimization
- arxiv url: http://arxiv.org/abs/2510.26575v1
- Date: Thu, 30 Oct 2025 15:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.871244
- Title: InfoFlow: Reinforcing Search Agent Via Reward Density Optimization
- Title(参考訳): InfoFlow:Reinforcecing Search Agent Via Reward Density Optimization
- Authors: Kun Luo, Hongjin Qian, Zheng Liu, Ziyi Xia, Shitao Xiao, Siqi Bao, Jun Zhao, Kang Liu,
- Abstract要約: Reinforcement Learning with Verifiable Rewards (RLVR) はエージェントディープサーチを強化するための有望なアプローチである。
本稿では,この課題を,探索費用単位当たりの報酬改善を目的としたtextbfReward Density Optimization 問題として定式化する。
この問題に3つの側面から対処する体系的なフレームワークである textbfInfoFlow を紹介します。
- 参考スコア(独自算出の注目度): 37.266452141225415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) is a promising approach for enhancing agentic deep search. However, its application is often hindered by low \textbf{Reward Density} in deep search scenarios, where agents expend significant exploratory costs for infrequent and often null final rewards. In this paper, we formalize this challenge as the \textbf{Reward Density Optimization} problem, which aims to improve the reward obtained per unit of exploration cost. This paper introduce \textbf{InfoFlow}, a systematic framework that tackles this problem from three aspects. 1) \textbf{Subproblem decomposition}: breaking down long-range tasks to assign process rewards, thereby providing denser learning signals. 2) \textbf{Failure-guided hints}: injecting corrective guidance into stalled trajectories to increase the probability of successful outcomes. 3) \textbf{Dual-agent refinement}: employing a dual-agent architecture to offload the cognitive burden of deep exploration. A refiner agent synthesizes the search history, which effectively compresses the researcher's perceived trajectory, thereby reducing exploration cost and increasing the overall reward density. We evaluate InfoFlow on multiple agentic search benchmarks, where it significantly outperforms strong baselines, enabling lightweight LLMs to achieve performance comparable to advanced proprietary LLMs.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR) はエージェントディープサーチを強化するための有望なアプローチである。
しかし、その応用はディープ・サーチ・シナリオにおいて低い textbf{Reward density} によって妨げられることが多く、エージェントは頻繁でしばしばヌルな最終報酬の探索コストを浪費する。
本稿では,この課題を,探索コスト単位当たりの報酬改善を目的とした「textbf{Reward Density Optimization}」問題として定式化する。
本稿では,この問題に3つの側面から対処する体系的なフレームワークである「textbf{InfoFlow}」を紹介する。
1) \textbf{Subproblem decomposition}: プロセス報酬を割り当てるために長距離タスクを分解し、より密集した学習信号を提供する。
2) \textbf{Failure-guided hints}: 成功の確率を高めるため、停止した軌道に修正ガイダンスを注入する。
3) \textbf{Dual-agent refinement}: 深層探査の認知的負担を和らげるために二重エージェントアーキテクチャを使用する。
精錬業者は、研究者の知覚軌道を効果的に圧縮し、探索コストを低減し、全体的な報酬密度を増大させる探索履歴を合成する。
我々は、InfoFlowを複数のエージェント検索ベンチマークで評価し、強力なベースラインを著しく上回り、軽量なLLMが高度なプロプライエタリなLLMに匹敵する性能を実現する。
関連論文リスト
- REDSearcher: A Scalable and Cost-Efficient Framework for Long-Horizon Search Agents [40.38002661542917]
REDSearcherは複雑なタスク合成、ミッドトレーニング、拡張性のあるサーチエージェント最適化のための後トレーニングをコード署名する統合フレームワークである。
我々は、受動的リコールではなく、積極的にツールの使用を促すために、toolaugmentedクエリを導入している。
トレーニング中、コアアトミック能力の知識、計画、関数呼び出しを強化する。
我々は、強化学習実験のための高速で低コストなアルゴリズム反復を可能にする、局所シミュレーション環境を構築した。
論文 参考訳(メタデータ) (2026-02-15T17:04:46Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - SAGE: Steerable Agentic Data Generation for Deep Search with Execution Feedback [68.60326181052658]
本稿では,高品質で難易度の高い探索問合せを自動生成するエージェントパイプラインを提案する。
我々のパイプラインであるSAGEは、QAペアを提案するデータジェネレータと、生成された質問を解決するための検索エージェントで構成される。
我々の本質的な評価は、SAGEが様々な推論戦略を必要とする質問を生成する一方で、生成したデータの正確性や難易度を著しく高めていることを示している。
論文 参考訳(メタデータ) (2026-01-26T06:37:56Z) - Chaining the Evidence: Robust Reinforcement Learning for Deep Search Agents with Citation-Aware Rubric Rewards [60.0970117192627]
強化学習(Reinforcement Learning, RL)は, LLMに基づくディープサーチエージェントの強化に重要な手法である。
既存のアプローチは主にバイナリ結果の報酬に依存しており、エージェントの推論プロセスの包括性と事実性を捉えていない。
ディープサーチエージェントのための微粒化報酬フレームワークである textbfCitation-aware RL Rewards (CaRR) を提案する。
論文 参考訳(メタデータ) (2026-01-09T18:57:53Z) - Search Self-play: Pushing the Frontier of Agent Capability without Supervision [14.889394507446477]
本稿では,ディープサーチエージェントのためのセルフプレイトレーニングを提案する。
探索セルフプレイ(SSP)ゲームにおいて、提案者と解決者は、競争と協力の両面からエージェント能力を共同開発する。
SSPは、様々なベンチマークにおいて、いかなる監督も受けずに、検索エージェントのパフォーマンスを均一に向上させることができる。
論文 参考訳(メタデータ) (2025-10-21T17:19:35Z) - HiPRAG: Hierarchical Process Rewards for Efficient Agentic Retrieval Augmented Generation [21.08814504507274]
準最適探索行動は、オーバーサーチやアンダーサーチなど、広く存在する。
現在のトレーニング方法は、通常、RLフレームワークの成果ベースの報酬に依存するが、これらの非効率に対処するために必要なきめ細かい制御が欠如している。
我々は、RLトレーニングに詳細な知識に基づくプロセス報酬を組み込んだトレーニング手法であるHiPRAGを紹介する。
論文 参考訳(メタデータ) (2025-10-09T05:13:10Z) - Beneficial Reasoning Behaviors in Agentic Search and Effective Post-training to Obtain Them [23.986035712600657]
エージェント探索における効果的な推論行動パターンを研究するための推論駆動パイプラインを提案する。
我々は,情報検証,権限評価,適応探索,エラー回復の4つの有益な推論行動を特定する。
Llama3.2-3B と Qwen3-1.7B では, RL を用いたエージェントサーチモデルを直接訓練した場合と比較して, 行動プライミングが 35% 以上の利得を示す。
論文 参考訳(メタデータ) (2025-10-08T00:20:35Z) - Beyond Outcome Reward: Decoupling Search and Answering Improves LLM Agents [19.31471304268234]
DeSA(Decoupling Search-and-Answering)は,検索最適化と回答生成を明確に分離する単純な2段階トレーニングフレームワークである。
7つのQAベンチマークで、DeSAがトレーニングしたエージェントは検索の振る舞いを継続的に改善し、結果のみのベースラインよりも検索リコールと回答の精度が大幅に向上した。
論文 参考訳(メタデータ) (2025-10-06T11:09:45Z) - Fathom-DeepResearch: Unlocking Long Horizon Information Retrieval and Synthesis for SLMs [7.3517692707289415]
本稿では2つの特殊モデルからなるエージェントシステムであるFathom-DeepResearchを紹介する。
ひとつは、ライブWeb検索とターゲットWebページクエリによるエビデンスベースの調査に最適化された、DeepSearchモデルであるFathom-Search-4Bである。
2つ目は、Qwen3-4Bから訓練されたFathom-Synthesizer-4Bである。
論文 参考訳(メタデータ) (2025-09-28T22:58:11Z) - DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL [60.47878242100153]
我々は、ディープサーチエージェントを進化させるためにDeepDiveを提示する。
オープンな知識グラフから複雑で難解な質問を自動的に合成する戦略を提案する。
深層探索によるLLMの長距離推論を強化するために, エンドツーエンドのマルチターン強化学習を適用した。
論文 参考訳(メタデータ) (2025-09-12T17:52:35Z) - RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。
実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。
この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:27:54Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。