論文の概要: OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
- arxiv url: http://arxiv.org/abs/2508.16438v1
- Date: Fri, 22 Aug 2025 14:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.419758
- Title: OPERA: A Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
- Title(参考訳): OPERA: Reinforcement Learning--Enhanced Orchestrated Planner-Executor Architecture for Reasoning-Oriented Multi-Hop Retrieval
- Authors: Yu Liu, Yanbing Liu, Fangfang Yuan, Cong Cao, Youbang Sun, Kun Peng, WeiZhuo Chen, Jianjun Li, Zhiyuan Ma,
- Abstract要約: Orchestrated Planner-Executor Reasoning Architecture (OPERA)は、推論駆動型検索フレームワークである。
OPERAは質問をサブゴールに分解し、Reason-Execute Module (REM) によって実行され、正確な推論と効果的な検索のための特別なコンポーネントを持つ。
- 参考スコア(独自算出の注目度): 23.400253066454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large language models (LLMs) and dense retrievers have driven significant progress in retrieval-augmented generation (RAG). However, existing approaches face significant challenges in complex reasoning-oriented multi-hop retrieval tasks: 1) Ineffective reasoning-oriented planning: Prior methods struggle to generate robust multi-step plans for complex queries, as rule-based decomposers perform poorly on out-of-template questions. 2) Suboptimal reasoning-driven retrieval: Related methods employ limited query reformulation, leading to iterative retrieval loops that often fail to locate golden documents. 3) Insufficient reasoning-guided filtering: Prevailing methods lack the fine-grained reasoning to effectively filter salient information from noisy results, hindering utilization of retrieved knowledge. Fundamentally, these limitations all stem from the weak coupling between retrieval and reasoning in current RAG architectures. We introduce the Orchestrated Planner-Executor Reasoning Architecture (OPERA), a novel reasoning-driven retrieval framework. OPERA's Goal Planning Module (GPM) decomposes questions into sub-goals, which are executed by a Reason-Execute Module (REM) with specialized components for precise reasoning and effective retrieval. To train OPERA, we propose Multi-Agents Progressive Group Relative Policy Optimization (MAPGRPO), a novel variant of GRPO. Experiments on complex multi-hop benchmarks show OPERA's superior performance, validating both the MAPGRPO method and OPERA's design. Code is available at https://github.com/Ameame1/OPERA.
- Abstract(参考訳): 大規模言語モデル (LLM) と高密度検索器の最近の進歩は, 検索強化世代 (RAG) の著しい進歩をもたらした。
しかし、既存のアプローチは複雑な推論指向のマルチホップ検索タスクにおいて重大な課題に直面している。
1)非効率な推論指向の計画法: ルールベースのデコンプリータが不適切な質問に対して不適切な処理を行うため、事前の手法は複雑なクエリに対して堅牢なマルチステッププランを生成するのに苦労する。
2) 最適推論駆動検索: 関連手法は限定的なクエリ再構成を用いており, しばしば黄金文書の発見に失敗する反復的な検索ループにつながる。
3) 難解な推論誘導フィルタリング: 難解な結果から健全な情報を効果的にフィルタリングする精細な推論を欠き, 検索した知識の活用を妨げている。
これらの制限はすべて、現在のRAGアーキテクチャにおける検索と推論の弱い結合に由来する。
本稿では,新しい推論駆動検索フレームワークであるOrchested Planner-Executor Reasoning Architecture (OPERA)を紹介する。
OPERAのゴールプランニングモジュール(GPM)は、質問をサブゴールに分解し、Reason-Execute Module(REM)によって実行される。
OPERA を訓練するために,GRPO の新たな変種である Multi-Agents Progressive Group Relative Policy Optimization (MAPGRPO) を提案する。
複雑なマルチホップベンチマークの実験はOPERAの優れた性能を示し、MAPGRPO法とOPERAの設計の両方を検証した。
コードはhttps://github.com/Ameame1/OPERAで入手できる。
関連論文リスト
- When should I search more: Adaptive Complex Query Optimization with Reinforcement Learning [26.489185170468062]
適応複雑クエリ最適化(ACQO)と呼ばれる新しいRLフレームワークを提案する。
我々のフレームワークは、いつ、どのように検索プロセスを拡張するかを適応的に決定するように設計されている。
ACQOは3つの複雑なクエリベンチマークで最先端のパフォーマンスを達成し、確立されたベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-01-29T03:16:53Z) - Is Agentic RAG worth it? An experimental comparison of RAG approaches [0.07777489763207261]
検索・拡張生成システムは通常、ジェネレータと検索コンポーネントの組み合わせで定義される。
これらの欠点は「強化されたRAG」の開発を動機づけている。
大規模言語モデルの自己回帰能力の増大により,新たなパラダイムが実現した。
論文 参考訳(メタデータ) (2026-01-12T16:43:44Z) - PRISMA: Reinforcement Learning Guided Two-Stage Policy Optimization in Multi-Agent Architecture for Open-Domain Multi-Hop Question Answering [26.994531058178982]
大規模コーパスに対する現実世界のオープンドメイン問題への回答は、レトリーバル・拡張ジェネレーション(RAG)システムにおいて重要な課題である。
近年の研究では、検索強化推論プロセスのエンドツーエンド最適化に強化学習(RL)を採用している。
PRISMAはPlan-Retrieve-Inspect-Memoizeアーキテクチャを特徴とする分離誘導型フレームワークである。
論文 参考訳(メタデータ) (2026-01-09T01:38:38Z) - Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。
抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。
提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文 参考訳(メタデータ) (2025-09-20T02:38:00Z) - Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。
我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。
BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文 参考訳(メタデータ) (2025-09-08T10:58:42Z) - DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router [57.28685457991806]
DeepSieveはエージェントRAGフレームワークで、LLM-as-a-knowledge-routerを介して情報を収集する。
我々の設計はモジュール性、透明性、適応性を重視しており、エージェントシステム設計の最近の進歩を活用している。
論文 参考訳(メタデータ) (2025-07-29T17:55:23Z) - Towards Agentic RAG with Deep Reasoning: A Survey of RAG-Reasoning Systems in LLMs [69.10441885629787]
Retrieval-Augmented Generation (RAG) は、外部知識を注入することによって、Large Language Models (LLM) の事実性を高める。
逆に、純粋に推論指向のアプローチは、しばしば幻覚的あるいは誤った事実を必要とする。
この調査は両鎖を統一的推論-検索の観点から合成する。
論文 参考訳(メタデータ) (2025-07-13T03:29:41Z) - Decoupled Planning and Execution: A Hierarchical Reasoning Framework for Deep Search [30.988785260110248]
HiRAは、戦略的な計画と専門的な実行を分離する階層的なフレームワークである。
提案手法では,複雑な探索タスクを集中サブタスクに分解し,各サブタスクを外部ツールと推論機能を備えたドメイン固有エージェントに割り当てる。
4つの複雑なクロスモーダルなディープ・サーチ・ベンチマークの実験により、HiRAは最先端のRAGとエージェント・ベース・システムを大きく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-03T14:18:08Z) - DAGR: Decomposition Augmented Graph Retrieval with LLMs [1.034893617526558]
DAGRは、複雑な質問と、関連するリンクされたサブグラフを抽出するサブクエストにおけるそれらの分解の両方を活用する検索手法である。
結果として得られるGraph-RAGパイプラインは、複雑なマルチホップ質問の処理と、グラフ構造化データに対する効果的な推論に適している。
DAGRを標準マルチホップQAベンチマークで評価し、競合する既存手法に匹敵する性能または優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-16T11:44:28Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - GRITHopper: Decomposition-Free Multi-Hop Dense Retrieval [52.47514434103737]
GRITHopper-7Bは,最先端性能を実現する新しいマルチホップ高密度検索モデルである。
GRITHopperは、因果言語モデリングと密集した検索訓練を統合することで、生成的および表現的命令チューニングを組み合わせる。
検索後言語モデリングと呼ばれる検索プロセスの後に追加のコンテキストを組み込むことで,検索性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-03-10T16:42:48Z) - RAG-Gym: Systematic Optimization of Language Agents for Retrieval-Augmented Generation [43.50113345998687]
本稿では,(1)プロンプトエンジニアリング,(2)アクターチューニング,(3)批判的トレーニングという,3つの最適化次元を探求する総合的なプラットフォームであるRAG-Gymを紹介する。
本稿では,リフレクション推論を取り入れた新しいエージェントであるRe$2$Searchを提案する。
アクターチューニングにおいて,プロセスの監督をきめ細かい3つの人気のあるポストトレーニングアルゴリズムを評価し,直接選好最適化を最も効果的に評価する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval [12.83513794686623]
本稿では,隠れ合理性検索という,より困難なタイプの検索タスクを提案し,検討する。
このような問題に対処するためには、命令調整付き大規模言語モデル(LLM)とクロスエンコーダアーキテクチャが妥当な選択である可能性がある。
我々は、RaHoReによってこの検索フレームワークを命名し、感情支援会話(ESC)におけるゼロショットおよび微調整性能上の優位性を検証した。
論文 参考訳(メタデータ) (2024-12-21T13:19:15Z) - UniKGQA: Unified Retrieval and Reasoning for Solving Multi-hop Question
Answering Over Knowledge Graph [89.98762327725112]
KGQA(Multi-hop Question Answering over Knowledge Graph)は、自然言語の質問で言及されているトピックエンティティから、複数のホップを持つ回答エンティティを見つけることを目的としている。
我々は、モデルアーキテクチャとパラメータ学習の両方において、検索と推論を統合することで、マルチホップKGQAタスクの新しいアプローチであるUniKGQAを提案する。
論文 参考訳(メタデータ) (2022-12-02T04:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。