論文の概要: D$^2$Plan: Dual-Agent Dynamic Global Planning for Complex Retrieval-Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2601.08282v1
- Date: Tue, 13 Jan 2026 07:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.094916
- Title: D$^2$Plan: Dual-Agent Dynamic Global Planning for Complex Retrieval-Augmented Reasoning
- Title(参考訳): D$2$Plan:複合検索強化推論のためのデュアルエージェント動的グローバルプランニング
- Authors: Kangcheng Luo, Tinglang Wu, Yansong Feng,
- Abstract要約: 近年、強化学習(RL)で訓練されたLLMは、マルチホップ推論タスクの探索と推論をインターリーブすることができる。
本稿では,*D$2$Plan*, a **D**ual-agent **D**ynamic global **Plan*ning paradigm for complex search-augmented reasoningを提案する。
実験によると、**D$2$Plan** は無関係な情報に対してより一貫性のある多段階推論と強いレジリエンスを可能にする。
- 参考スコア(独自算出の注目度): 13.69282198724757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent search-augmented LLMs trained with reinforcement learning (RL) can interleave searching and reasoning for multi-hop reasoning tasks. However, they face two critical failure modes as the accumulating context becomes flooded with both crucial evidence and irrelevant information: (1) ineffective search chain construction that produces incorrect queries or omits retrieval of critical information, and (2) reasoning hijacking by peripheral evidence that causes models to misidentify distractors as valid evidence. To address these challenges, we propose **D$^2$Plan**, a **D**ual-agent **D**ynamic global **Plan**ning paradigm for complex retrieval-augmented reasoning. **D$^2$Plan** operates through the collaboration of a *Reasoner* and a *Purifier*: the *Reasoner* constructs explicit global plans during reasoning and dynamically adapts them based on retrieval feedback; the *Purifier* assesses retrieval relevance and condenses key information for the *Reasoner*. We further introduce a two-stage training framework consisting of supervised fine-tuning (SFT) cold-start on synthesized trajectories and RL with plan-oriented rewards to teach LLMs to master the **D$^2$Plan** paradigm. Extensive experiments demonstrate that **D$^2$Plan** enables more coherent multi-step reasoning and stronger resilience to irrelevant information, thereby achieving superior performance on challenging QA benchmarks.
- Abstract(参考訳): 近年、強化学習(RL)で訓練されたLLMは、マルチホップ推論タスクの探索と推論をインターリーブすることができる。
しかし, 2つの重要な障害モードがあり, 蓄積状況には重要な証拠と無関係な情報の両方が溢れている。(1) 誤ったクエリを生成したり, 重要な情報の検索を省略する非効率なサーチチェーン構築, (2) モデルがトラヒックを有効証拠と誤認する周辺証拠によるハイジャックの推論である。
これらの課題に対処するため、複雑な検索強化推論のための*D$^2$Plan**, a*D**ual-agent **D**ynamic global **Plan**ning paradigmを提案する。
*D$^2$Plan* は、*Reasoner* と *Purifier* の協調を通して動作する: *Reasoner* は、推論中に明示的なグローバルプランを構築し、検索フィードバックに基づいて動的にそれらを適応する; *Purifier* は、*Reasoner* の検索関連性を評価し、キー情報を凝縮する。
さらに、合成軌道上でのSFTコールトスタートと、**D$^2$Plan*パラダイムをマスターするためにLLMを教えるプラン指向の報酬を備えたRLからなる2段階のトレーニングフレームワークを導入する。
広範囲な実験により、**D$^2$Plan** は、無関係な情報に対するより一貫性のある多段階推論と強いレジリエンスを可能にし、挑戦的なQAベンチマークにおいて優れた性能を達成することが示されている。
関連論文リスト
- PRISMA: Reinforcement Learning Guided Two-Stage Policy Optimization in Multi-Agent Architecture for Open-Domain Multi-Hop Question Answering [26.994531058178982]
大規模コーパスに対する現実世界のオープンドメイン問題への回答は、レトリーバル・拡張ジェネレーション(RAG)システムにおいて重要な課題である。
近年の研究では、検索強化推論プロセスのエンドツーエンド最適化に強化学習(RL)を採用している。
PRISMAはPlan-Retrieve-Inspect-Memoizeアーキテクチャを特徴とする分離誘導型フレームワークである。
論文 参考訳(メタデータ) (2026-01-09T01:38:38Z) - InteGround: On the Evaluation of Verification and Retrieval Planning in Integrative Grounding [51.80327078402434]
仮説クエリをサポートするために、複数の独立したエビデンスを検索し、検証するという課題である。
まず,LLMは冗長な証拠に対して頑健であるのに対して,情報の不完全な場合,内部知識を合理的に活用する傾向にある。
ノイズ導入による非方向性計画が性能を低下させるのに対して, 前提推論は論理的制約のため, 有望なアプローチとして現れる。
論文 参考訳(メタデータ) (2025-09-20T04:48:24Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Learning to Think: Information-Theoretic Reinforcement Fine-Tuning for LLMs [32.99445017319392]
大きな言語モデル(LLM)は、推論能力のおかげで複雑なタスクで優れています。
既存の手法は、推論の有効性と効率のトレードオフを見落としている。
より少ないトークンで最適な推論を実現するために,学習から思考への学習を提案する。
論文 参考訳(メタデータ) (2025-05-15T15:40:25Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - FLARE: Faithful Logic-Aided Reasoning and Exploration [47.46564769245296]
タスク分解を用いて問題空間をトラバースする新しい手法を提案する。
我々はLarge Language Modelsを使ってソリューションを計画し、クエリを事実に軟式化し、論理プログラミングコードを使って述語する。
提案手法は,生成したコードに対する推論プロセスの忠実度を計算し,外部の解法に頼らずにマルチホップ探索のステップを解析する。
論文 参考訳(メタデータ) (2024-10-14T19:39:11Z) - Reasoning with Language Model is Planning with World Model [27.24144881796878]
大規模言語モデル(LLM)は、顕著な推論能力を示している。
LLMには、世界を予測するための$textitworldモデルがない。
我々は新しいLCM推論フレームワークである$underlineR$easoning vi$underlinea$$underlineP$lanning $textbf(RAP)$を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。