論文の概要: WISE: Weighted Iterative Society-of-Experts for Robust Multimodal Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2512.02405v1
- Date: Tue, 02 Dec 2025 04:31:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.720402
- Title: WISE: Weighted Iterative Society-of-Experts for Robust Multimodal Multi-Agent Debate
- Title(参考訳): WISE:ロバストなマルチモーダルなマルチエージェント議論のための軽量反復型社会
- Authors: Anoop Cherian, River Doyle, Eyal Ben-Dov, Suhas Lohit, Kuan-Chuan Peng,
- Abstract要約: マルチエージェントの議論(MAD)は、これらの強みを堅牢な推論に活用するための一般的な方法として現れている。
本稿では,単一・多モード機能を持つ異種専門家による議論プロトコルの一般化を図っている。
WISEは最先端のMADセットアップやアグリゲーション手法よりも精度を2-7%向上することを示す。
- 参考スコア(独自算出の注目度): 31.549907845278327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent large language models (LLMs) are trained on diverse corpora and tasks, leading them to develop complementary strengths. Multi-agent debate (MAD) has emerged as a popular way to leverage these strengths for robust reasoning, though it has mostly been applied to language-only tasks, leaving its efficacy on multimodal problems underexplored. In this paper, we study MAD for solving vision-and-language reasoning problems. Our setup enables generalizing the debate protocol with heterogeneous experts that possess single- and multi-modal capabilities. To this end, we present Weighted Iterative Society-of-Experts (WISE), a generalized and modular MAD framework that partitions the agents into Solvers, that generate solutions, and Reflectors, that verify correctness, assign weights, and provide natural language feedback. To aggregate the agents' solutions across debate rounds, while accounting for variance in their responses and the feedback weights, we present a modified Dawid-Skene algorithm for post-processing that integrates our two-stage debate model. We evaluate WISE on SMART-840, VisualPuzzles, EvoChart-QA, and a new SMART-840++ dataset with programmatically generated problem instances of controlled difficulty. Our results show that WISE consistently improves accuracy by 2-7% over the state-of-the-art MAD setups and aggregation methods across diverse multimodal tasks and LLM configurations.
- Abstract(参考訳): 最近の大規模言語モデル(LLM)は、様々なコーパスとタスクに基づいて訓練されており、補完的な強みを発達させる。
マルチエージェント論争(MAD)は、これらの強みを堅牢な推論に活用するための一般的な方法として現れてきたが、主に言語のみのタスクに適用され、マルチモーダル問題に対するその有効性は未検討のままである。
本稿では,視覚・言語推論問題の解法としてMADについて検討する。
本稿では,単一・多モード機能を持つ異種専門家による議論プロトコルの一般化を図っている。
この目的のために、エージェントをソルバーに分割し、ソリューションを生成し、リフレクタを検証し、重みを割り当て、自然言語フィードバックを提供する一般化されたモジュールMADフレームワークWISE(Weighted Iterative Society-of-Experts)を提案する。
エージェントの解法を議論ラウンド全体で集約し、応答のばらつきとフィードバックの重み付けを考慮しながら、2段階の議論モデルを統合した後処理のためのダウィド・スキーアルゴリズムを提案する。
我々は,SMART-840,VisualPuzzles,EvoChart-QA,および制御難易度をプログラム的に生成した新たなSMART-840++データセット上でWISEを評価する。
その結果、WISEは様々なマルチモーダルタスクやLLM構成をまたいで、最先端のMADセットアップや集約手法よりも精度を2-7%向上することがわかった。
関連論文リスト
- MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文 参考訳(メタデータ) (2025-10-07T06:27:42Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Is Multi-Agent Debate (MAD) the Silver Bullet? An Empirical Analysis of MAD in Code Summarization and Translation [10.038721196640864]
マルチエージェント・ディベート (MAD) システムは,大規模言語モデル (LLM) 間の構造化された議論を可能にする
MADは、役割特異的なエージェント、動的相互作用、構造化された意思決定を通じて、散発的な思考を促進する。
本研究では,2つのソフトウェア工学(SE)タスクにおけるMADの有効性について検討する。
論文 参考訳(メタデータ) (2025-03-15T07:30:37Z) - Multidimensional Consistency Improves Reasoning in Language Models [21.989335720239467]
複数の入力のバリエーションにまたがる応答整合性のモデルをテストするためのフレームワークを提案する。
我々は, (i) シュート順, (ii) 問題表現, (iii) 言語でのバリエーションを誘導する。
我々のフレームワークは単言語データセットGSM8Kと多言語データセットMGSMの両方、特により小さなモデルにおいて数学的推論性能を一貫して向上させる。
論文 参考訳(メタデータ) (2025-03-04T14:41:05Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Visual Reasoning and Multi-Agent Approach in Multimodal Large Language Models (MLLMs): Solving TSP and mTSP Combinatorial Challenges [5.934258790280767]
MLLM(Multimodal Large Language Models)は、テキスト、画像、音声にまたがる包括的な知識を活用して、複雑な問題に対処する。
本研究では、旅行セールスマン問題(TSP)と旅行セールスマン問題(mTSP)を視覚的に解決するMLLMの能力について検討する。
本稿では,MLLMフレームワークに複数の特殊エージェントを取り入れた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-06-26T07:12:06Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。