論文の概要: From Evidence to Trajectory: Abductive Reasoning Path Synthesis for Training Retrieval-Augmented Generation Agents
- arxiv url: http://arxiv.org/abs/2509.23071v1
- Date: Sat, 27 Sep 2025 02:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.019907
- Title: From Evidence to Trajectory: Abductive Reasoning Path Synthesis for Training Retrieval-Augmented Generation Agents
- Title(参考訳): 証拠から軌道へ:検索促進剤の誘導推論経路合成
- Authors: Muzhi Li, Jinhu Qi, Yihong Wu, Minghao Zhao, Liheng Ma, Yifan Li, Xinyu Wang, Yingxue Zhang, Ho-fung Leung, Irwin King,
- Abstract要約: 我々は,RAGエージェント開発のためのエビアンコール推論経路合成パラダイムであるEviPathを提案する。
EviPath は、 (i) 問題をサブクエストに分解し、それら間の依存関係に基づいて最適なソリューションパスを反復的に計画する、 (i) サブクエストの各サブクエストに対する推論思考と回答を生成するためのプロキシ環境を構築するための証拠を裏付ける、忠実なサブクエスト回答、 (iii) 完全なエージェント-環境相互作用の軌跡を監督されたファインタニングに適した対話形式にフォーマットする会話ファインタニングを含む。
- 参考スコア(独自算出の注目度): 47.06655345033574
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Retrieval-augmented generation agents development is hindered by the lack of process-level supervision to effectively guide agentic capabilities like task decomposition, retriever invocation, and stepwise decision-making. While reinforcement learning offers a potential solution, it suffers from sparse rewards and the limited reasoning capabilities of large language models (LLMs). Meanwhile, existing data synthesis methods only produce chain-of-thought rationales and fail to model environmental interactions. In this paper, we propose EviPath, an evidence-anchored reasoning path synthesis paradigm for RAG agent development. EviPath comprises: (i) Abductive Subtask Planning, which decomposes the problem into sub-questions and iteratively plans an optimal solution path based on the dependencies between them; (ii) Faithful Sub-question Answering, which uses supporting evidence to construct a proxy environment to generate reasoning thoughts and answers for each sub-question; and (iii) Conversational Fine-Tuning, which formats the complete agent-environment interaction trajectory into a dialogue format suitable for Supervised Fine-Tuning. EviPath allows LLMs to learn complex reasoning and tool-use capabilities directly from synthesized data. Extensive experiments on widely-used question-answering benchmarks show that an 8B parameter model trained with EviPath-synthesized data significantly and consistently outperforms state-of-the-art baselines with a double-digit absolute EM gain of 14.7% in open-domain question answering.
- Abstract(参考訳): 検索強化世代エージェントの開発は、タスクの分解、レトリバーの呼び出し、ステップワイズな意思決定といったエージェント機能を効果的に導くプロセスレベルの監督が欠如していることによって妨げられている。
強化学習は潜在的な解決策を提供するが、大きな言語モデル(LLM)のわずかな報酬と限定的な推論能力に悩まされている。
一方、既存のデータ合成手法は、連鎖論理しか生成せず、環境相互作用のモデル化に失敗する。
本稿では,RAGエージェント開発のためのエビアンコール推論経路合成パラダイムであるEviPathを提案する。
EviPathは次のように構成する。
一 課題をサブクエストに分解し、それら間の依存関係に基づいて最適な解決経路を反復的に計画する減算サブタスク計画
二 補助証拠を用いて代理環境を構築し、各サブクエストに対する推論思想及び回答を生成する忠実なサブクエスト回答
3 対話ファインタニング(Conversational Fine-Tuning)は、エージェント-環境相互作用の完全な軌跡を監督ファインタニングに適した対話形式にフォーマットする。
EviPathは、LLMが合成データから直接複雑な推論とツール使用機能を学ぶことを可能にする。
EviPath合成データでトレーニングされた8Bパラメータモデルは、2桁の絶対EMゲインのオープンドメイン質問応答では14.7%で、最先端のベースラインを大幅に上回っている。
関連論文リスト
- Following the TRACE: A Structured Path to Empathetic Response Generation with Multi-Agent Models [19.450298798183166]
共感的応答生成は、より人間らしく支持的な会話エージェントを作成するための重要なタスクである。
既存の手法は、専門モデルの分析的深さと大規模言語モデルの生成的頻度との間の中心的なトレードオフに直面している。
我々は,共感を構造化認知プロセスとしてモデル化する新しいフレームワークであるTRACEを提案し,そのタスクを解析と合成のためのパイプラインに分解する。
論文 参考訳(メタデータ) (2025-09-26T04:20:37Z) - Audited Reasoning Refinement: Fine-Tuning Language Models via LLM-Guided Step-Wise Evaluation and Correction [1.41282143488996]
人間の直接監督や高品質なラベルが不足している場合、タスク固有の小さな推論モデルのトレーニングは困難である。
本稿では,Reason-Refine-then-Align (R2tA)を提案する。
論文 参考訳(メタデータ) (2025-09-15T21:47:52Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Reasoning RAG via System 1 or System 2: A Survey on Reasoning Agentic Retrieval-Augmented Generation for Industry Challenges [6.615766570234612]
Retrieval-Augmented Generation (RAG) は、大規模言語モデルの知識制限を克服する強力なフレームワークとして登場した。
これらの課題に対処するため、フィールドは推論エージェントRAG(Reasoning Agentic RAG)へと移行した。
論文 参考訳(メタデータ) (2025-06-12T07:01:56Z) - MA-RAG: Multi-Agent Retrieval-Augmented Generation via Collaborative Chain-of-Thought Reasoning [43.66966457772646]
MA-RAGは、タスク認識推論でRAGパイプラインの各ステージに取り組むために、特別なAIエージェントの協力的なセットを編成する。
我々の設計では、モデルが微調整されることなく、情報の流れをきめ細かな制御が可能である。
このモジュラーおよび推論駆動アーキテクチャにより、MA-RAGは堅牢で解釈可能な結果を提供できる。
論文 参考訳(メタデータ) (2025-05-26T15:05:18Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Successive Prompting for Decomposing Complex Questions [50.00659445976735]
最近の研究は、大規模言語モデル(LM)の機能を活用して、数ショットで複雑な質問応答を行う。
そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。
我々の最良のモデル(逐次プロンプト付き)は、DROPデータセットの数ショットバージョンにおいて、5%の絶対F1の改善を実現します。
論文 参考訳(メタデータ) (2022-12-08T06:03:38Z) - Paired Examples as Indirect Supervision in Latent Decision Models [109.76417071249945]
我々は、ペア化された例を活用して、潜在的な決定を学習するためのより強力な手がかりを提供する方法を紹介します。
DROPデータセット上のニューラルネットワークを用いた合成質問応答の改善に本手法を適用した。
論文 参考訳(メタデータ) (2021-04-05T03:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。