論文の概要: MMD-Thinker: Adaptive Multi-Dimensional Thinking for Multimodal Misinformation Detection
- arxiv url: http://arxiv.org/abs/2511.13242v1
- Date: Mon, 17 Nov 2025 11:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.143532
- Title: MMD-Thinker: Adaptive Multi-Dimensional Thinking for Multimodal Misinformation Detection
- Title(参考訳): MMD-Thinker:マルチモーダル誤情報検出のための適応的多次元思考
- Authors: Junjie Wu, Guohong Fu,
- Abstract要約: マルチモーダルな誤報はさまざまなソーシャルメディアに溢れ、AIGC(AIGC)の時代においても進化を続けている。
近年の研究では、汎用多目的大言語モデル(MLLM)を活用して、検出において顕著な結果が得られている。
適応型多次元思考によるマルチモーダル誤情報検出のための2段階フレームワークであるMDD-Thinkerを提案する。
- 参考スコア(独自算出の注目度): 8.06079393106578
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal misinformation floods on various social media, and continues to evolve in the era of AI-generated content (AIGC). The emerged misinformation with low creation cost and high deception poses significant threats to society. While recent studies leverage general-purpose multimodal large language models (MLLMs) to achieve remarkable results in detection, they encounter two critical limitations: (1) Insufficient reasoning, where general-purpose MLLMs often follow the uniform reasoning paradigm but generate inaccurate explanations and judgments, due to the lack of the task-specific knowledge of multimodal misinformation detection. (2) Reasoning biases, where a single thinking mode make detectors a suboptimal path for judgment, struggling to keep pace with the fast-growing and intricate multimodal misinformation. In this paper, we propose MMD-Thinker, a two-stage framework for multimodal misinformation detection through adaptive multi-dimensional thinking. First, we develop tailor-designed thinking mode for multimodal misinformation detection. Second, we adopt task-specific instruction tuning to inject the tailored thinking mode into general-purpose MLLMs. Third, we further leverage reinforcement learning strategy with a mixed advantage function, which incentivizes the reasoning capabilities in trajectories. Furthermore, we construct the multimodal misinformation reasoning (MMR) dataset, encompasses more than 8K image-text pairs with both reasoning processes and classification labels, to make progress in the relam of multimodal misinformation detection. Experimental results demonstrate that our proposed MMD-Thinker achieves state-of-the-art performance on both in-domain and out-of-domain benchmark datasets, while maintaining flexible inference and token usage. Code will be publicly available at Github.
- Abstract(参考訳): マルチモーダルな誤報はさまざまなソーシャルメディアに溢れ、AIGC(AIGC)の時代も進化を続けている。
創造コストの低い偽情報と高い偽情報が社会に重大な脅威をもたらす。
近年の研究では、汎用多目的大言語モデル(MLLM)を用いて、検出において顕著な結果が得られたが、(1)汎用MLLMが一様推論パラダイムに従うことが多いが、タスク固有の誤情報検出の知識が欠如しているため、不正確な説明や判断が生じる、という2つの重要な制約に直面している。
2) 一つの思考モードで判断を下す場合のバイアスは, 迅速かつ複雑なマルチモーダル誤報に追従するのに苦慮する。
本稿では,適応的多次元思考による多モード誤情報検出のための2段階フレームワークであるMDD-Thinkerを提案する。
まず、マルチモーダルな誤情報検出のためのテーラー設計の思考モードを開発する。
第2に、汎用MLLMに調整された思考モードを注入するために、タスク固有の命令チューニングを採用する。
第3に、トラジェクトリにおける推論能力にインセンティブを与える混合優位関数を用いた強化学習戦略をさらに活用する。
さらに,マルチモーダル誤情報検出(MMR)データセットを構築し,解析プロセスと分類ラベルを合わせて8K以上の画像テキストペアを包含し,マルチモーダル誤情報検出のリラムを進展させる。
実験の結果,提案したMDD-Thinkerは,フレキシブル推論とトークン使用率を維持しつつ,ドメイン内ベンチマークとドメイン外ベンチマークの両方で最先端のパフォーマンスを実現していることがわかった。
コードはGithubで公開されている。
関連論文リスト
- Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - CMR-SPB: Cross-Modal Multi-Hop Reasoning over Text, Image, and Speech with Path Balance [10.843417240658992]
クロスモーダル・マルチホップ推論(CMR)は、マルチモーダル・大規模言語モデル(MLLM)の重要かつ未探索の能力である。
この能力を評価するための既存のベンチマークには、重大な欠点がある、と我々は主張する。
CMR-SPB (Cross-Modal Multi-Hop Reasoning over Text, Image and Speech with Path Balance) という新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-08-22T08:17:31Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Detecting Misinformation in Multimedia Content through Cross-Modal Entity Consistency: A Dual Learning Approach [10.376378437321437]
クロスモーダルなエンティティの整合性を利用して、ビデオコンテンツから誤情報を検出するためのマルチメディア誤情報検出フレームワークを提案する。
以上の結果から,MultiMDは最先端のベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-08-16T16:14:36Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。