論文の概要: APEX-Searcher: Augmenting LLMs' Search Capabilities through Agentic Planning and Execution
- arxiv url: http://arxiv.org/abs/2603.13853v2
- Date: Tue, 17 Mar 2026 07:07:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 13:19:43.853499
- Title: APEX-Searcher: Augmenting LLMs' Search Capabilities through Agentic Planning and Execution
- Title(参考訳): APEX-Searcher: エージェント計画と実行を通じてLLMの検索能力を増強する
- Authors: Kun Chen, Qingchao Kong, Zhao Feifei, Wenji Mao,
- Abstract要約: APEX-Searcherは、大規模言語モデル(LLM)検索能力を増強する新しいエージェントプランニングおよび実行フレームワークである。
戦略計画の最適化のために、まずRLを分解特異的な報酬として採用する。
その後、高品質なマルチホップ軌道の教師付き微調整を適用し、ロバストな反復的なサブタスク実行能力を持つモデルに装備する。
- 参考スコア(独自算出の注目度): 10.643859464982071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented generation (RAG), based on large language models (LLMs), serves as a vital approach to retrieving and leveraging external knowledge in various domain applications. When confronted with complex multi-hop questions, single-round retrieval is often insufficient for accurate reasoning and problem solving. To enhance search capabilities for complex tasks, most existing works integrate multi-round iterative retrieval with reasoning processes via end-to-end training. While these approaches significantly improve problem-solving performance, they are still faced with challenges in task reasoning and model training, especially ambiguous retrieval execution paths and sparse rewards in end-to-end reinforcement learning (RL) process, leading to inaccurate retrieval results and performance degradation. To address these issues, in this paper, we proposes APEX-Searcher, a novel Agentic Planning and Execution framework to augment LLM search capabilities. Specifically, we introduce a two-stage agentic framework that decouples the retrieval process into planning and execution: It first employs RL with decomposition-specific rewards to optimize strategic planning; Built on the sub-task decomposition, it then applies supervised fine-tuning on high-quality multi-hop trajectories to equip the model with robust iterative sub-task execution capabilities. Extensive experiments demonstrate that our proposed framework achieves significant improvements in both multi-hop RAG and task planning performances across multiple benchmarks.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく検索言語拡張世代(RAG)は、さまざまなドメインアプリケーションにおける外部知識の検索と活用に不可欠なアプローチである。
複雑なマルチホップ問題に直面した場合、単一ラウンドの検索は正確な推論や問題解決には不十分であることが多い。
複雑なタスクの検索機能を向上させるため、既存の作業の多くは、複数ラウンド反復検索と、エンドツーエンドのトレーニングによる推論プロセスを統合している。
これらの手法は課題解決性能を著しく向上させるが、タスク推論やモデルトレーニング、特に不明瞭な検索実行パスや、エンドツーエンド強化学習(RL)プロセスにおけるスパース報酬といった課題に直面しており、不正確な検索結果と性能劣化につながっている。
これらの課題に対処するため,本論文では,LLM検索能力を増強する新しいエージェント計画・実行フレームワークであるAPEX-Searcherを提案する。
具体的には、探索プロセスを計画と実行に分離する2段階のエージェント・フレームワークを紹介し、まずRLを用いて戦略計画の最適化を行い、サブタスク分解に基づいて、高品質なマルチホップ軌道の教師付き微調整を適用して、堅牢な反復的なサブタスク実行機能を備えたモデルを構築する。
大規模な実験により,提案フレームワークはマルチホップRAGとタスク計画性能の両方において,複数のベンチマークで大幅な改善が達成された。
関連論文リスト
- When should I search more: Adaptive Complex Query Optimization with Reinforcement Learning [26.489185170468062]
適応複雑クエリ最適化(ACQO)と呼ばれる新しいRLフレームワークを提案する。
我々のフレームワークは、いつ、どのように検索プロセスを拡張するかを適応的に決定するように設計されている。
ACQOは3つの複雑なクエリベンチマークで最先端のパフォーマンスを達成し、確立されたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-29T03:16:53Z) - Efficient Multimodal Planning Agent for Visual Question-Answering [67.26245301307539]
本稿では,MRAGパイプラインを動的に分解してVQAタスクを解くマルチモーダル計画エージェントを訓練する手法を提案する。
本実験では, 従来の手法に比べて探索時間を60%以上削減し, 余剰計算の削減に役立てることができた。
論文 参考訳(メタデータ) (2026-01-28T14:58:59Z) - REAP: Enhancing RAG with Recursive Evaluation and Adaptive Planning for Multi-Hop Question Answering [3.547564482333453]
サブタスクプランナー(SP)とファクトエクストラクタ(FE)が開発されている。
SPはグローバルな視点を維持し、全体的な推論方向を導き、タスク状態を評価する。
FEは、検索されたコンテンツに対してきめ細かい分析を行い、信頼できる回答と手がかりを抽出する。
論文 参考訳(メタデータ) (2025-11-13T04:58:51Z) - DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling [56.45844907505722]
二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-07T13:45:09Z) - DynaSearcher: Dynamic Knowledge Graph Augmented Search Agent via Multi-Reward Reinforcement Learning [5.280613615397194]
DynaSearcherは動的知識グラフとマルチリワード強化学習(RL)によって強化された革新的な検索エージェントである
検索精度, 効率, 応答品質などの学習目標を詳細に制御するために, マルチリワード RL フレームワークを用いる。
実験により,提案手法は6つのマルチホップ質問応答データセットに対して,最先端の回答精度を実現することを示す。
論文 参考訳(メタデータ) (2025-07-23T09:58:31Z) - HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search [85.12447821237045]
HiRAは、戦略的な計画と専門的な実行を分離する階層的なフレームワークである。
提案手法では,複雑な探索タスクを集中サブタスクに分解し,各サブタスクを外部ツールと推論機能を備えたドメイン固有エージェントに割り当てる。
4つの複雑なクロスモーダルなディープ・サーチ・ベンチマークの実験により、HiRAは最先端のRAGとエージェント・ベース・システムを大きく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-03T14:18:08Z) - RRO: LLM Agent Optimization Through Rising Reward Trajectories [52.579992804584464]
大規模言語モデル (LLM) は様々なタスクにおいて異常な性能を示した。
実際には、エージェントは特定の重要なステップの結果に敏感で、タスクを失敗する可能性がある。
この問題を軽減するために,Reward Rising Optimization (RRO)を提案する。
論文 参考訳(メタデータ) (2025-05-27T05:27:54Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant [63.28378110792787]
LamRAは大規模マルチモーダルモデルに高度な検索と再ランク機能を持たせるために設計された多機能フレームワークである。
検索には、言語のみの事前学習とマルチモーダル・インストラクション・チューニングからなる2段階のトレーニング戦略を採用する。
再格付けには、ポイントワイドとリストワイドの両方のジョイントトレーニングを採用し、検索性能をさらに向上させる2つの方法を提供している。
論文 参考訳(メタデータ) (2024-12-02T17:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。