論文の概要: OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
- arxiv url: http://arxiv.org/abs/2508.16438v1
- Date: Fri, 22 Aug 2025 14:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.419758
- Title: OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
- Title(参考訳): OPERA: Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
- Authors: Yu Liu, Yanbing Liu, Fangfang Yuan, Cong Cao, Youbang Sun, Kun Peng, WeiZhuo Chen, Jianjun Li, Zhiyuan Ma,
- Abstract要約: Orchestrated Planner-Executor Reasoning Architecture (OPERA)は、推論駆動型検索フレームワークである。
OPERAは質問をサブゴールに分解し、Reason-Execute Module (REM) によって実行され、正確な推論と効果的な検索のための特別なコンポーネントを持つ。
- 参考スコア(独自算出の注目度): 23.400253066454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) and dense retrievers have driven significant progress in retrieval-augmented generation (RAG). However, existing approaches face significant challenges in complex reasoning-oriented multi-hop retrieval tasks: 1) Ineffective reasoning-oriented planning: Prior methods struggle to generate robust multi-step plans for complex queries, as rule-based decomposers perform poorly on out-of-template questions. 2) Suboptimal reasoning-driven retrieval: Related methods employ limited query reformulation, leading to iterative retrieval loops that often fail to locate golden documents. 3) Insufficient reasoning-guided filtering: Prevailing methods lack the fine-grained reasoning to effectively filter salient information from noisy results, hindering utilization of retrieved knowledge. Fundamentally, these limitations all stem from the weak coupling between retrieval and reasoning in current RAG architectures. We introduce the Orchestrated Planner-Executor Reasoning Architecture (OPERA), a novel reasoning-driven retrieval framework. OPERA's Goal Planning Module (GPM) decomposes questions into sub-goals, which are executed by a Reason-Execute Module (REM) with specialized components for precise reasoning and effective retrieval. To train OPERA, we propose Multi-Agents Progressive Group Relative Policy Optimization (MAPGRPO), a novel variant of GRPO. Experiments on complex multi-hop benchmarks show OPERA's superior performance, validating both the MAPGRPO method and OPERA's design. Code is available at https://github.com/Ameame1/OPERA.
- Abstract(参考訳): 大規模言語モデル (LLM) と高密度検索器の最近の進歩は, 検索強化世代 (RAG) の著しい進歩をもたらした。
しかし、既存のアプローチは複雑な推論指向のマルチホップ検索タスクにおいて重大な課題に直面している。
1)非効率な推論指向の計画法: ルールベースのデコンプリータが不適切な質問に対して不適切な処理を行うため、事前の手法は複雑なクエリに対して堅牢なマルチステッププランを生成するのに苦労する。
2) 最適推論駆動検索: 関連手法は限定的なクエリ再構成を用いており, しばしば黄金文書の発見に失敗する反復的な検索ループにつながる。
3) 難解な推論誘導フィルタリング: 難解な結果から健全な情報を効果的にフィルタリングする精細な推論を欠き, 検索した知識の活用を妨げている。
これらの制限はすべて、現在のRAGアーキテクチャにおける検索と推論の弱い結合に由来する。
本稿では,新しい推論駆動検索フレームワークであるOrchested Planner-Executor Reasoning Architecture (OPERA)を紹介する。
OPERAのゴールプランニングモジュール(GPM)は、質問をサブゴールに分解し、Reason-Execute Module(REM)によって実行される。
OPERA を訓練するために,GRPO の新たな変種である Multi-Agents Progressive Group Relative Policy Optimization (MAPGRPO) を提案する。
複雑なマルチホップベンチマークの実験はOPERAの優れた性能を示し、MAPGRPO法とOPERAの設計の両方を検証した。
コードはhttps://github.com/Ameame1/OPERAで入手できる。
関連論文リスト
- DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search [30.988785260110248]
HiRAは、戦略的な計画と専門的な実行を分離する階層的なフレームワークである。
提案手法では,複雑な探索タスクを集中サブタスクに分解し,各サブタスクを外部ツールと推論機能を備えたドメイン固有エージェントに割り当てる。
4つの複雑なクロスモーダルなディープ・サーチ・ベンチマークの実験により、HiRAは最先端のRAGとエージェント・ベース・システムを大きく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-03T14:18:08Z) - DAGR: Decomposition Augmented Graph Retrieval with LLMs [1.034893617526558]
DAGRは、複雑な質問と、関連するリンクされたサブグラフを抽出するサブクエストにおけるそれらの分解の両方を活用する検索手法である。
結果として得られるGraph-RAGパイプラインは、複雑なマルチホップ質問の処理と、グラフ構造化データに対する効果的な推論に適している。
DAGRを標準マルチホップQAベンチマークで評価し、競合する既存手法に匹敵する性能または優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-16T11:44:28Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - RAG-Gym: Systematic Optimization of Language Agents for Retrieval-Augmented Generation [43.50113345998687]
本稿では,(1)プロンプトエンジニアリング,(2)アクターチューニング,(3)批判的トレーニングという,3つの最適化次元を探求する総合的なプラットフォームであるRAG-Gymを紹介する。
本稿では,リフレクション推論を取り入れた新しいエージェントであるRe$2$Searchを提案する。
アクターチューニングにおいて,プロセスの監督をきめ細かい3つの人気のあるポストトレーニングアルゴリズムを評価し,直接選好最適化を最も効果的に評価する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。
このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。
我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文 参考訳(メタデータ) (2024-12-21T13:19:15Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。