論文の概要: ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA
- arxiv url: http://arxiv.org/abs/2503.06951v1
- Date: Mon, 10 Mar 2025 05:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 20:09:44.723806
- Title: ReAgent: Reversible Multi-Agent Reasoning for Knowledge-Enhanced Multi-Hop QA
- Title(参考訳): ReAgent: 知識強化型マルチホップQAのための可逆的マルチエージェント推論
- Authors: Zhao Xinjie, Fan Gao, Rui Yang, Yingjian Chen, Yuyang Wang, Ying Zhu, Jiacheng Tang, Irene Li,
- Abstract要約: ReAgentは、明示的なバックトラッキング機構を備えた可逆的なマルチエージェント協調フレームワークである。
提案システムでは,誤り検出と修正が可能で,より堅牢で解釈可能なQA結果が得られる。
- 参考スコア(独自算出の注目度): 13.386562087058596
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in large language models (LLMs) have significantly improved multi-hop question answering (QA) through direct Chain-of-Thought (CoT) reasoning. However, the irreversible nature of CoT leads to error accumulation, making it challenging to correct mistakes in multi-hop reasoning. This paper introduces ReAgent: a Reversible multi-Agent collaborative framework augmented with explicit backtracking mechanisms, enabling reversible multi-hop reasoning. By incorporating text-based retrieval, information aggregation and validation, our system can detect and correct errors mid-reasoning, leading to more robust and interpretable QA outcomes. The framework and experiments serve as a foundation for future work on error-tolerant QA systems. Empirical evaluations across three benchmarks indicate ReAgent's efficacy, yielding average about 6\% improvements against baseline models.
- Abstract(参考訳): 大規模言語モデル (LLMs) の最近の進歩は、直接連鎖解法 (CoT) によるマルチホップ質問応答 (QA) を著しく改善している。
しかし、CoTの不可逆的な性質はエラーの蓄積につながるため、マルチホップ推論における誤りを訂正することは困難である。
本稿では,ReAgentについて紹介する。ReAgent: Reversible Multi-Agentコラボレーティブフレームワーク。
テキストベースの検索,情報集約,バリデーションを組み込むことで,中間の誤りを検出し,修正することが可能となり,より堅牢で解釈可能なQA結果が得られる。
このフレームワークと実験は、エラー耐性QAシステムに関する将来の研究の基盤となる。
3つのベンチマークによる実証的な評価は、ReAgentの有効性を示し、ベースラインモデルに対して平均で6倍の改善をもたらす。
関連論文リスト
- MAMM-Refine: A Recipe for Improving Faithfulness in Generation with Multi-Agent Collaboration [63.31211701741323]
我々はマルチエージェント・マルチモデル推論を生成にまで拡張し、特に改良による忠実度の向上を図っている。
我々は,各サブタスクに対して固有の評価を設計し,マルチエージェント(複数インスタンス)とマルチモデル(多変数LPMタイプ)の両方がエラー検出やクオリティクスに有効であることを示す。
我々はこれらの知見を、マルチエージェント・マルチモデル・リファインメント(MAMM-Refinement)と呼ばれる最終的な"レシピ"に統合し、マルチエージェント・マルチモデルコラボレーションがパフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2025-03-19T14:46:53Z) - Can we repurpose multiple-choice question-answering models to rerank retrieved documents? [0.0]
R* は概念実証モデルであり、文書の再ランク付けのための多重選択質問回答(MCQA)モデルを調和させる。
実験的な検証により、R*は検索精度を向上し、フィールドの進歩に寄与することが証明される。
論文 参考訳(メタデータ) (2025-03-06T17:53:24Z) - Dual Ensembled Multiagent Q-Learning with Hypernet Regularizer [62.01554688056335]
マルチエージェント設定における過大評価は、比較的ほとんど注目されていない。
本稿では,超ネットワーク重みとバイアスに関する新しいハイパーネット正規化器を提案し,オンライングローバルQ-ネットワークの最適化を制約し,過大な推定の蓄積を防止する。
論文 参考訳(メタデータ) (2025-02-04T05:14:58Z) - Agent-R: Training Language Model Agents to Reflect via Iterative Self-Training [18.896813839389893]
本稿では,言語エージェントをオンザフライでリフレクション可能な反復型自己学習フレームワーク,Agent-Rを提案する。
Agent-Rは、正しさに基づいてアクションを報酬または罰揚する従来の方法とは異なり、MCTSを活用して、誤ったトラジェクトリから正しいトラジェクトリを復元するトレーニングデータを構築する。
以上の結果から,Agent-Rは連続的にエラーから回復し,タイムリーなエラー訂正を可能にすることが示唆された。
論文 参考訳(メタデータ) (2025-01-20T11:46:04Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [66.9481561915524]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Improving LLM Reasoning with Multi-Agent Tree-of-Thought Validator Agent [9.439315294704368]
Tree of Thoughts (ToT) 法は複雑な質問応答タスクの推論を改善する可能性を示している。
マルチエージェント推論における重要な制限は、'Reasoner'エージェントによる推論経路の浅い探索である。
ToTをベースとしたReasonerエージェントとThought Validatorエージェントを組み合わせた新しいアプローチを提案する。
提案手法は,GSM8Kデータセットを用いた場合,既存の手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T19:54:37Z) - Derailer-Rerailer: Adaptive Verification for Efficient and Reliable Language Model Reasoning [11.765298236504155]
Derailer-Rerailerは推論精度と計算効率のバランスをとる新しいフレームワークである。
提案手法は,従来の検証手法に比べて2~3倍の効率を維持しつつ,大幅な精度向上(8~11%)を実現している。
論文 参考訳(メタデータ) (2024-08-25T21:20:17Z) - TRACE the Evidence: Constructing Knowledge-Grounded Reasoning Chains for Retrieval-Augmented Generation [30.485127201645437]
本稿では,RAGモデルのマルチホップ推論能力を高めるためにTRACEを提案する。
TRACEは、論理的に連結された一連の知識三重項である知識基底推論連鎖を構成する。
TRACEは、取得したすべてのドキュメントと比較して、平均14.03%の性能向上を実現している。
論文 参考訳(メタデータ) (2024-06-17T12:23:32Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Modeling Multi-hop Question Answering as Single Sequence Prediction [88.72621430714985]
本稿では,単純な生成手法(PathFid)を提案する。
PathFidは、マルチホップ質問に対する回答を解決するための推論プロセスを明示的にモデル化する。
実験の結果,PathFidは2つのマルチホップQAデータセットに対して高い性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-05-18T21:57:59Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。