論文の概要: DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling
- arxiv url: http://arxiv.org/abs/2510.21712v1
- Date: Sun, 07 Sep 2025 13:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.101003
- Title: DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling
- Title(参考訳): DecoupleSearch: 階層的リワードモデリングによる計画と検索の分離
- Authors: Hao Sun, Zile Qiao, Bo Wang, Guoxin Chen, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang,
- Abstract要約: 二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
- 参考スコア(独自算出の注目度): 56.45844907505722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems have emerged as a pivotal methodology for enhancing Large Language Models (LLMs) through the dynamic integration of external knowledge. To further improve RAG's flexibility, Agentic RAG introduces autonomous agents into the workflow. However, Agentic RAG faces several challenges: (1) the success of each step depends on both high-quality planning and accurate search, (2) the lack of supervision for intermediate reasoning steps, and (3) the exponentially large candidate space for planning and searching. To address these challenges, we propose DecoupleSearch, a novel framework that decouples planning and search processes using dual value models, enabling independent optimization of plan reasoning and search grounding. Our approach constructs a reasoning tree, where each node represents planning and search steps. We leverage Monte Carlo Tree Search to assess the quality of each step. During inference, Hierarchical Beam Search iteratively refines planning and search candidates with dual value models. Extensive experiments across policy models of varying parameter sizes, demonstrate the effectiveness of our method.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは、外部知識の動的統合を通じて、LLM(Large Language Models)を拡張するための重要な方法論として登場した。
RAGの柔軟性をさらに改善するため、Agentic RAGはワークフローに自律エージェントを導入した。
しかし,エージェントRAGは,(1)高品質な計画と正確な探索,(2)中間推論ステップの監督の欠如,(3)計画と探索のための指数関数的に大きな候補空間など,いくつかの課題に直面している。
これらの課題に対処するために,二値モデルを用いて計画と探索プロセスを分離し,計画推論と探索基盤の独立最適化を可能にする新しいフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
Monte Carlo Tree Searchを使って各ステップの品質を評価します。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
パラメータサイズの異なるポリシーモデルに対する大規模な実験により,本手法の有効性を実証した。
関連論文リスト
- AI Founding Fathers: A Case Study of GIS Search in Multi-Agent Pipelines [0.0]
大規模言語モデル(LLMs)は例外的な流行を示すが、それらからより強力な推論能力を引き出す努力は続けられている。
本稿では,LLM推論と最適化の体系的枠組みを推し進める。
論文 参考訳(メタデータ) (2025-11-12T05:52:55Z) - AI-SearchPlanner: Modular Agentic Search via Pareto-Optimal Multi-Objective Reinforcement Learning [7.913125061214038]
探索計画に着目し,凍結QAモデルの性能向上を目的とした新しい強化学習フレームワークである textbfAI-SearchPlanner を提案する。
実世界のデータセットの実験では、AI SearchPlannerが既存のRLベースの検索エージェントを効率と効率の両方で上回っていることが示されている。
論文 参考訳(メタデータ) (2025-08-28T02:31:17Z) - HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search [85.12447821237045]
HiRAは、戦略的な計画と専門的な実行を分離する階層的なフレームワークである。
提案手法では,複雑な探索タスクを集中サブタスクに分解し,各サブタスクを外部ツールと推論機能を備えたドメイン固有エージェントに割り当てる。
4つの複雑なクロスモーダルなディープ・サーチ・ベンチマークの実験により、HiRAは最先端のRAGとエージェント・ベース・システムを大きく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-03T14:18:08Z) - HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。
実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文 参考訳(メタデータ) (2025-05-05T02:38:58Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。