論文の概要: DART: Leveraging Multi-Agent Disagreement for Tool Recruitment in Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2512.07132v1
- Date: Mon, 08 Dec 2025 03:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.698289
- Title: DART: Leveraging Multi-Agent Disagreement for Tool Recruitment in Multimodal Reasoning
- Title(参考訳): DART:マルチモーダル推論におけるツールリクルートのためのマルチエージェント診断の活用
- Authors: Nithin Sivakumaran, Justin Chih-Yao Chen, David Wan, Yue Zhang, Jaehong Yoon, Elias Stengel-Eskin, Mohit Bansal,
- Abstract要約: DARTは、複数の議論する視覚エージェント間の不一致を利用して、有用な視覚ツールを識別するマルチエージェントフレームワークである。
これらのツールは、新しい情報を導入することで実りの多いマルチエージェントの議論を可能にする。
Dartは、M3D医療データセットを1.3%改善して、応用ドメインの新しいツールに順応する。
- 参考スコア(独自算出の注目度): 84.25936790759484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Specialized visual tools can augment large language models or vision language models with expert knowledge (e.g., grounding, spatial reasoning, medical knowledge, etc.), but knowing which tools to call (and when to call them) can be challenging. We introduce DART, a multi-agent framework that uses disagreements between multiple debating visual agents to identify useful visual tools (e.g., object detection, OCR, spatial reasoning, etc.) that can resolve inter-agent disagreement. These tools allow for fruitful multi-agent discussion by introducing new information, and by providing tool-aligned agreement scores that highlight agents in agreement with expert tools, thereby facilitating discussion. We utilize an aggregator agent to select the best answer by providing the agent outputs and tool information. We test DART on four diverse benchmarks and show that our approach improves over multi-agent debate as well as over single agent tool-calling frameworks, beating the next-strongest baseline (multi-agent debate with a judge model) by 3.4% and 2.4% on A-OKVQA and MMMU respectively. We also find that DART adapts well to new tools in applied domains, with a 1.3% improvement on the M3D medical dataset over other strong tool-calling, single agent, and multi-agent baselines. Additionally, we measure text overlap across rounds to highlight the rich discussion in DART compared to existing multi-agent methods. Finally, we study the tool call distribution, finding that diverse tools are reliably used to help resolve disagreement.
- Abstract(参考訳): 特殊化された視覚ツールは、専門家の知識(例えば、接地、空間的推論、医学的知識など)で大きな言語モデルや視覚言語モデルを拡張することができるが、どのツールを呼び出すか(そしていつ呼び出すか)を知ることは難しい。
マルチエージェントフレームワークであるDARTを導入し、複数の議論を行う視覚エージェント間の不一致を利用して、視覚ツール(例えば、オブジェクト検出、OCR、空間推論など)を識別し、エージェント間の不一致を解決する。
これらのツールは、新しい情報を導入することで実りあるマルチエージェントの議論を可能にし、専門家のツールと一致してエージェントをハイライトするツール整合の合意スコアを提供することで、議論を容易にします。
我々は、アグリゲータエージェントを使用して、エージェント出力とツール情報を提供することで、最適な回答を選択する。
我々はDARTを4つの多様なベンチマークでテストし、我々のアプローチがマルチエージェントの議論だけでなく、単一のエージェントツールコールフレームワークよりも改善していることを示し、A-OKVQAとMMMUでそれぞれ3.4%と2.4%の差をつけている。
また、DARTは、他の強力なツールコール、シングルエージェント、マルチエージェントベースラインよりもM3D医療データセットを1.3%改善し、適用ドメインの新しいツールに順応する。
さらに,DARTにおけるリッチな議論を,既存のマルチエージェント手法と比較して強調するために,ラウンド間のテキストオーバーラップを測定した。
最後に,ツールコールの分布について検討し,多様なツールが不一致を解決するのに確実に利用されていることを明らかにする。
関連論文リスト
- MALLM: Multi-Agent Large Language Models Framework [11.142842314744586]
マルチエージェントディベート(MAD)は、テストタイムの計算をスケールし、専門知識を活用することで、集合的インテリジェンスを強化する能力を示した。
我々は,MADコンポーネントの体系的解析を可能にするオープンソースフレームワークであるMALLMを紹介する。
論文 参考訳(メタデータ) (2025-09-15T07:48:02Z) - MM-BrowseComp: A Comprehensive Benchmark for Multimodal Browsing Agents [78.3863007028688]
MM-BrowseCompは、224の挑戦的で手作りの質問からなる新しいベンチマークである。
これらの質問は、しばしば画像にプロンプトを組み込むが、検索と推論の過程で遭遇する重要な情報は、Webページ上の画像やビデオにも埋め込まれることがある。
MM-BrowseCompによる最先端モデルの総合評価では、OpenAI o3のようなツールを用いたトップモデルでさえ、わずか29.02%の精度しか達成していないことが示されている。
論文 参考訳(メタデータ) (2025-08-14T13:46:47Z) - T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-26T09:50:55Z) - MDocAgent: A Multi-Modal Multi-Agent Framework for Document Understanding [40.52017994491893]
MDocAgentは、テキストとイメージの両方を活用する新しいRAGおよびマルチエージェントフレームワークである。
本システムでは, 汎用エージェント, クリティカルエージェント, テキストエージェント, 画像エージェント, 要約エージェントの5種類の特殊エージェントを用いる。
5つのベンチマークの予備実験では、MDocAgentの有効性が示され、平均12.1%の改善が達成された。
論文 参考訳(メタデータ) (2025-03-18T06:57:21Z) - ControlLLM: Augment Language Models with Tools by Searching on Graphs [97.62758830255002]
我々は,大規模言語モデル(LLM)が実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
フレームワークは,(1)複雑なタスクを明確なサブタスクに分割し,入力と出力を適切に定義したサブタスクに分解するtextittask Decomposer,(2)構築済みのツールグラフ上で最適なソリューションパスを探索する textitThoughts-on-Graph(ToG)パラダイム,(3)ソリューションパスを解釈して実行するリッチなツールボックスを備えた textitexecution Engine,の3つの主要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-10-26T21:57:21Z) - MultiTool-CoT: GPT-3 Can Use Multiple External Tools with Chain of
Thought Prompting [23.607534241574346]
推論過程において,計算機や知識検索などの外部ツールを組み込んだMultiTool-CoTを提案する。
NumGLUEのタスク2データセットにMultiTool-CoTを適用し,数値推論とドメイン固有知識の両方を必要とする。
論文 参考訳(メタデータ) (2023-05-26T13:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。