論文の概要: MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
- arxiv url: http://arxiv.org/abs/2604.27934v1
- Date: Thu, 30 Apr 2026 14:34:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.139913
- Title: MM-StanceDet: Retrieval-Augmented Multi-modal Multi-agent Stance Detection
- Title(参考訳): MM-StanceDet:検索型マルチモーダルマルチエージェントスタンス検出
- Authors: Weihai Lu, Zhejun Zhao, Yanshu Li, Huan He,
- Abstract要約: 検索型マルチモーダルマルチエージェントスタンス検出(MM-StanceDet)を提案する。
MM-StanceDetは、文脈的グラウンド化のためのRetrieval Augmentationを統合した、新しいマルチエージェントフレームワークである。
5つのデータセットに対する大規模な実験は、MM-StanceDetが最先端のベースラインを大幅に上回っていることを示している。
- 参考スコア(独自算出の注目度): 8.10743562429719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Stance Detection (MSD) is crucial for understanding public discourse, yet effectively fusing text and image, especially with conflicting signals, remains challenging. Existing methods often face difficulties with contextual grounding, cross-modal interpretation ambiguity, and single-pass reasoning fragility. To address these, we propose Retrieval-Augmented Multi-modal Multi-agent Stance Detection (MM-StanceDet), a novel multi-agent framework integrating Retrieval Augmentation for contextual grounding, specialized Multimodal Analysis agents for nuanced interpretation, a Reasoning-Enhanced Debate stage for exploring perspectives, and Self-Reflection for robust adjudication. Extensive experiments on five datasets demonstrate MM-StanceDet significantly outperforms state-of-the-art baselines, validating the efficacy of its multi-agent architecture and structured reasoning stages in addressing complex multimodal stance challenges.
- Abstract(参考訳): マルチモーダル・スタンス検出(MSD)は、公衆の会話を理解する上で重要であるが、テキストと画像、特に競合する信号で効果的に融合することは、依然として困難である。
既存の手法は、文脈的な接地、相互モーダルな解釈の曖昧さ、単一パス推論の脆弱さに悩まされることが多い。
そこで本稿では,Retrieval-Augmented Multi-Stance Detection (MM-StanceDet),Retrieval Augmentation for contextual grounding, Special Multimodal Analysis agent for nuanced interpretation, Reasoning-Enhanced Debate stage for explores, Self-Reflection for robust adjudicationを提案する。
5つのデータセットに対する大規模な実験は、MM-StanceDetが最先端のベースラインを大幅に上回っており、複雑なマルチモーダルなスタンスに対処する上で、そのマルチエージェントアーキテクチャと構造化推論ステージの有効性を検証している。
関連論文リスト
- Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z) - MADIAVE: Multi-Agent Debate for Implicit Attribute Value Extraction [52.89860691282002]
インプシット属性値抽出(AVE)は、電子商取引における商品の正確な表現に不可欠である。
マルチモーダル大言語モデル(MLLM)の進歩にもかかわらず、多次元データの複雑さのため暗黙のAVEは依然として困難である。
我々は,複数のMLLMエージェントを用いて推論を反復的に洗練するマルチエージェント討論フレームワークであるtextscmodelnameを紹介する。
論文 参考訳(メタデータ) (2025-10-07T06:27:42Z) - Beyond Spurious Signals: Debiasing Multimodal Large Language Models via Counterfactual Inference and Adaptive Expert Routing [10.66971486730557]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合する能力を示すが、しばしば素早い相関に頼っている。
本稿では,MLLMの表層相関バイアスに対する批判的課題を,新たな因果媒介に基づく脱バイアスフレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-09-18T19:01:11Z) - MV-Debate: Multi-view Agent Debate with Dynamic Reflection Gating for Multimodal Harmful Content Detection in Social Media [26.07883439550861]
MV-Debateは、マルチモード有害コンテンツ検出のための動的リフレクションゲーティングを備えたマルチビューエージェント討論フレームワークである。
MV-Debateは4つの相補的な議論エージェント、表面分析者、深い推論者、モダリティコントラスト、社会的文脈主義者を集め、多様な解釈的視点からコンテンツを分析する。
論文 参考訳(メタデータ) (2025-08-07T16:38:25Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。