論文の概要: Tool-MAD: A Multi-Agent Debate Framework for Fact Verification with Diverse Tool Augmentation and Adaptive Retrieval
- arxiv url: http://arxiv.org/abs/2601.04742v1
- Date: Thu, 08 Jan 2026 09:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.126499
- Title: Tool-MAD: A Multi-Agent Debate Framework for Fact Verification with Diverse Tool Augmentation and Adaptive Retrieval
- Title(参考訳): Tool-MAD: ツール拡張と適応検索によるファクト検証のためのマルチエージェント議論フレームワーク
- Authors: Seyeon Jeong, Yeonjun Choi, JongWook Kim, Beakcheol Jang,
- Abstract要約: マルチエージェント・ディベート(MAD)システムは,複数のLLMエージェントが対話を行えるようにすることで,解答精度を向上させることを目的としている。
既存のMADフレームワークは主に内部知識や静的文書に依存しており、幻覚に弱い。
エージェントを別個の外部ツールに割り当てることで,事実検証を強化する多エージェント討論フレームワークであるTool-MADを提案する。
- 参考スコア(独自算出の注目度): 10.62333858188658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) suffer from hallucinations and factual inaccuracies, especially in complex reasoning and fact verification tasks. Multi-Agent Debate (MAD) systems aim to improve answer accuracy by enabling multiple LLM agents to engage in dialogue, promoting diverse reasoning and mutual verification. However, existing MAD frameworks primarily rely on internal knowledge or static documents, making them vulnerable to hallucinations. While MADKE introduces external evidence to mitigate this, its one-time retrieval mechanism limits adaptability to new arguments or emerging information during the debate. To address these limitations, We propose Tool-MAD, a multi-agent debate framework that enhances factual verification by assigning each agent a distinct external tool, such as a search API or RAG module. Tool-MAD introduces three key innovations: (1) a multi-agent debate framework where agents leverage heterogeneous external tools, encouraging diverse perspectives, (2) an adaptive query formulation mechanism that iteratively refines evidence retrieval based on the flow of the debate, and (3) the integration of Faithfulness and Answer Relevance scores into the final decision process, allowing the Judge agent to quantitatively assess the coherence and question alignment of each response and effectively detect hallucinations. Experimental results on four fact verification benchmarks demonstrate that Tool-MAD consistently outperforms state-of-the-art MAD frameworks, achieving up to 5.5% accuracy improvement. Furthermore, in medically specialized domains, Tool-MAD exhibits strong robustness and adaptability across various tool configurations and domain conditions, confirming its potential for broader real-world fact-checking applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特に複雑な推論や事実検証タスクにおいて、幻覚や事実の不正確さに悩まされる。
マルチエージェント・ディベート(MAD)システムは,複数のLLMエージェントが対話を行えるようにし,多様な推論と相互検証を促進することで,回答の精度を向上させることを目的としている。
しかし、既存のMADフレームワークは主に内部知識や静的文書に依存しており、幻覚に弱い。
MADKEは、これを緩和するために外部証拠を導入するが、その1回限りの検索メカニズムは、議論の間、新しい議論や新しい情報への適応性を制限している。
これらの制約に対処するため,検索APIやRAGモジュールなどの外部ツールを各エージェントに割り当てることで,事実検証を強化するマルチエージェントの議論フレームワークであるTool-MADを提案する。
ツールMADは, エージェントが異質な外部ツールを活用し, 多様な視点を奨励するマルチエージェント討論フレームワーク, 2) 議論の流れに基づいて証拠検索を反復的に洗練する適応的なクエリ定式化機構, (3) 最終決定プロセスに忠実さと回答のスコアを統合することにより, 審査員が各応答の一貫性と質問のアライメントを定量的に評価し, 幻覚を効果的に検出する。
4つの事実検証ベンチマーク実験の結果、Tool-MADは最先端のMADフレームワークを一貫して上回り、最大5.5%の精度向上を実現している。
さらに、医学的に専門化されたドメインでは、Tool-MADは様々なツール構成やドメイン条件に対して強い堅牢性と適応性を示し、より広範な実世界のファクトチェックアプリケーションの可能性を確認している。
関連論文リスト
- DART: Leveraging Multi-Agent Disagreement for Tool Recruitment in Multimodal Reasoning [84.25936790759484]
DARTは、複数の議論する視覚エージェント間の不一致を利用して、有用な視覚ツールを識別するマルチエージェントフレームワークである。
これらのツールは、新しい情報を導入することで実りの多いマルチエージェントの議論を可能にする。
Dartは、M3D医療データセットを1.3%改善して、応用ドメインの新しいツールに順応する。
論文 参考訳(メタデータ) (2025-12-08T03:33:38Z) - MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文 参考訳(メタデータ) (2025-10-07T06:27:42Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness [50.29739337771454]
マルチエージェントの議論(MAD)アプローチは、モノリシックモデルに対する推論、堅牢性、多様な視点を提供する。
本稿では,MADを実験時間計算のスケーリング手法として概念化し,協調的な改良と多様な探索能力で区別する。
我々は、MADと強力なセルフエージェントテストタイムスケーリングベースラインを数学的推論と安全関連タスクに基づいて比較した総合的な実証的研究を行う。
論文 参考訳(メタデータ) (2025-05-29T01:02:55Z) - Stop Overvaluing Multi-Agent Debate -- We Must Rethink Evaluation and Embrace Model Heterogeneity [20.408720462383158]
マルチエージェント討論(MAD)は,大規模言語モデル(LLM)の事実的精度と推論能力を改善するための,将来的な研究ラインとして注目されている。
概念的魅力にもかかわらず、現在のMAD研究は評価実践の限界に悩まされている。
そこで本研究では, 基礎モデルを用いて, 9つのベンチマークにまたがる5つの代表的MAD手法の体系的評価を行った。
論文 参考訳(メタデータ) (2025-02-12T21:01:10Z) - MAD-Sherlock: Multi-Agent Debate for Visual Misinformation Detection [36.12673167913763]
文外誤情報検出のためのマルチエージェント討論システムMAD-Sherlockを紹介する。
MAD-Sherlockは、オンラインで見られる多様で矛盾する会話を反映して、マルチエージェントの議論として検出する。
我々のフレームワークはドメインと時間に依存しず、微調整は必要ありませんが、詳細な説明で最先端の精度を実現しています。
論文 参考訳(メタデータ) (2024-10-26T10:34:22Z) - Learning to Break: Knowledge-Enhanced Reasoning in Multi-Agent Debate System [16.830182915504555]
マルチエージェント討論システム(MAD)は、真理を追求する人間の議論の過程を模倣する。
様々なエージェントが、限られた知識の背景から、適切に、高度に一貫した認知をさせることは困難である。
本稿では,Underline Knowledge-underlineEnhanced frameworkを用いたUnderlineMulti-underlineAgent UnderlineDebateを提案する。
論文 参考訳(メタデータ) (2023-12-08T06:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。