Fugu-MT 論文翻訳(概要): DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling

論文の概要: DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling

arxiv url: http://arxiv.org/abs/2510.21712v1
Date: Sun, 07 Sep 2025 13:45:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-07 19:06:32.101003
Title: DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling
Title（参考訳）: DecoupleSearch: 階層的リワードモデリングによる計画と検索の分離
Authors: Hao Sun, Zile Qiao, Bo Wang, Guoxin Chen, Yingyan Hou, Yong Jiang, Pengjun Xie, Fei Huang, Yan Zhang,
Abstract要約: 二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
参考スコア（独自算出の注目度）: 56.45844907505722
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Retrieval-Augmented Generation (RAG) systems have emerged as a pivotal methodology for enhancing Large Language Models (LLMs) through the dynamic integration of external knowledge. To further improve RAG's flexibility, Agentic RAG introduces autonomous agents into the workflow. However, Agentic RAG faces several challenges: (1) the success of each step depends on both high-quality planning and accurate search, (2) the lack of supervision for intermediate reasoning steps, and (3) the exponentially large candidate space for planning and searching. To address these challenges, we propose DecoupleSearch, a novel framework that decouples planning and search processes using dual value models, enabling independent optimization of plan reasoning and search grounding. Our approach constructs a reasoning tree, where each node represents planning and search steps. We leverage Monte Carlo Tree Search to assess the quality of each step. During inference, Hierarchical Beam Search iteratively refines planning and search candidates with dual value models. Extensive experiments across policy models of varying parameter sizes, demonstrate the effectiveness of our method.
Abstract（参考訳）: Retrieval-Augmented Generation (RAG) システムは、外部知識の動的統合を通じて、LLM(Large Language Models)を拡張するための重要な方法論として登場した。 RAGの柔軟性をさらに改善するため、Agentic RAGはワークフローに自律エージェントを導入した。しかし,エージェントRAGは,(1)高品質な計画と正確な探索,(2)中間推論ステップの監督の欠如,(3)計画と探索のための指数関数的に大きな候補空間など,いくつかの課題に直面している。これらの課題に対処するために,二値モデルを用いて計画と探索プロセスを分離し,計画推論と探索基盤の独立最適化を可能にする新しいフレームワークであるDecoupleSearchを提案する。提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。 Monte Carlo Tree Searchを使って各ステップの品質を評価します。推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。パラメータサイズの異なるポリシーモデルに対する大規模な実験により,本手法の有効性を実証した。

関連論文リスト

WideSeek: Advancing Wide Research via Multi-Agent Scaling [29.02742625120584]
ワイドリサーチ(英: Wide Research)は、複雑な制約の下で複雑な情報を並列に合成・合成するためのパラダイムである。データパイプラインとエージェント最適化という2つの観点から、ワイドリサーチを深く掘り下げています。まず、厳密な多相データパイプラインを用いて構築されたベンチマークであるWideSeekBenchを作成し、ターゲット情報ボリュームの多様性を保証する。第2に,タスク要求に基づいて並列サブエージェントを自律的にフォークできる動的階層型マルチエージェントアーキテクチャであるWideSeekを紹介する。
論文参考訳（メタデータ） (2026-02-02T18:32:48Z)
AI Founding Fathers: A Case Study of GIS Search in Multi-Agent Pipelines [0.0]
大規模言語モデル(LLMs)は例外的な流行を示すが、それらからより強力な推論能力を引き出す努力は続けられている。本稿では,LLM推論と最適化の体系的枠組みを推し進める。
論文参考訳（メタデータ） (2025-11-12T05:52:55Z)
Unifying Tree Search Algorithm and Reward Design for LLM Reasoning: A Survey [92.71325249013535]
線形木探索はLarge Language Model (LLM) 研究の基盤となっている。本稿では,検索アルゴリズムを3つのコアコンポーネントに分解する統合フレームワークを提案する。
論文参考訳（メタデータ） (2025-10-11T03:29:18Z)
AI-SearchPlanner: Modular Agentic Search via Pareto-Optimal Multi-Objective Reinforcement Learning [7.913125061214038]
探索計画に着目し,凍結QAモデルの性能向上を目的とした新しい強化学習フレームワークである textbfAI-SearchPlanner を提案する。実世界のデータセットの実験では、AI SearchPlannerが既存のRLベースの検索エージェントを効率と効率の両方で上回っていることが示されている。
論文参考訳（メタデータ） (2025-08-28T02:31:17Z)
Efficient Agent: Optimizing Planning Capability for Multimodal Retrieval Augmented Generation [17.115587821286223]
マルチモーダル大規模言語モデル(MLLM)のリアルタイムシナリオにおける時間的制限に対処する,有望なソリューションとして,mRAG(Multimodal Retrieval-Augmented Generation)が登場した。本稿では、コンテキスト推論に基づくマルチモーダルツールを動的にオーケストレーションするmRAGプランナと、ツール認識実行シーケンシングを用いたタスク実行器の2つの重要なイノベーションを特徴とするエージェントフレームワークであるE-Agentを提案する。
論文参考訳（メタデータ） (2025-08-12T10:17:12Z)
HiRA: A Hierarchical Reasoning Framework for Decoupled Planning and Execution in Deep Search [85.12447821237045]
HiRAは、戦略的な計画と専門的な実行を分離する階層的なフレームワークである。提案手法では,複雑な探索タスクを集中サブタスクに分解し,各サブタスクを外部ツールと推論機能を備えたドメイン固有エージェントに割り当てる。 4つの複雑なクロスモーダルなディープ・サーチ・ベンチマークの実験により、HiRAは最先端のRAGとエージェント・ベース・システムを大きく上回っていることが示された。
論文参考訳（メタデータ） (2025-07-03T14:18:08Z)
MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文参考訳（メタデータ） (2025-06-25T17:59:42Z)
HyperTree Planning: Enhancing LLM Reasoning via Hierarchical Thinking [109.09735490692202]
提案するHyperTree Planning(HTP)は,高木構造プランニングアウトラインを構成する新しい推論パラダイムである。実験ではHTPの有効性を実証し、Gemini-1.5-ProによるTravelPlannerベンチマークで最先端の精度を実現し、o1-previewよりも3.6倍の性能向上を実現した。
論文参考訳（メタデータ） (2025-05-05T02:38:58Z)
Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文参考訳（メタデータ） (2024-11-18T16:15:17Z)
AMEIR: Automatic Behavior Modeling, Interaction Exploration and MLP Investigation in the Recommender System [32.288429300824454]
Recommender システムにおける AMEIR for Automatic Behavior Modeling, Interaction Exploration and multi-layer perceptron (MLP) Investigation in the Recommender system。具体的には、AMEIRは完全なレコメンデーションモデルを3段階の行動モデリング、相互作用探索、集約に分割し、3つの部分空間を含む新しい検索空間を導入する。理想的アーキテクチャを効率的かつ効果的に発見するために,AMEIR は3段階のレコメンデーションでワンショットランダム検索を実現し,最終結果として検索結果を組み立てる。
論文参考訳（メタデータ） (2020-06-10T16:41:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。