Fugu-MT 論文翻訳(概要): Head-wise Modality Specialization within MLLMs for Robust Fake News Detection under Missing Modality

論文の概要: Head-wise Modality Specialization within MLLMs for Robust Fake News Detection under Missing Modality

arxiv url: http://arxiv.org/abs/2604.09711v1
Date: Wed, 08 Apr 2026 04:13:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.61988
Title: Head-wise Modality Specialization within MLLMs for Robust Fake News Detection under Missing Modality
Title（参考訳）: ロバストフェイクニュース検出のためのMLLM内部の頭部モーダルスペシャライゼーション
Authors: Kai Qian, Weijie Shi, Jiaqi Wang, Mengze Li, Hao Chen, Yue Cui, Hanghui Guo, Ziyi Liu, Jia Zhu, Jiajie Xu,
Abstract要約: マルチモーダル大規模言語モデルにおいて,モダリティの欠如によるロバストなMFNDのためのヘッドワイド・モダリティを提案する。モーダリティ・クリティカルヘッドは,モーダリティ・スペシャライゼーションを通じて,一元認証能力のキーキャリアとして機能することを示す。本手法は,完全マルチモーダル入力で性能を保ちながら,モダリティの欠如によるロバスト性を向上する。
参考スコア（独自算出の注目度）: 19.587785527666075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal fake news detection (MFND) aims to verify news credibility by jointly exploiting textual and visual evidence. However, real-world news dissemination frequently suffers from missing modality due to deleted images, corrupted screenshots, and similar issues. Thus, robust detection in this scenario requires preserving strong verification ability for each modality, which is challenging in MFND due to insufficient learning of the low-contribution modality and scarce unimodal annotations. To address this issue, we propose Head-wise Modality Specialization within Multimodal Large Language Models (MLLMs) for robust MFND under missing modality. Specifically, we first systematically study attention heads in MLLMs and their relationship with performance under missing modality, showing that modality-critical heads serve as key carriers of unimodal verification ability through their modality specialization. Based on this observation, to better preserve verification ability for the low-contribution modality, we introduce a head-wise specialization mechanism that explicitly allocates these heads to different modalities and preserves their specialization through lower-bound attention constraints. Furthermore, to better exploit scarce unimodal annotations, we propose a Unimodal Knowledge Retention strategy that prevents these heads from drifting away from the unimodal knowledge learned from limited supervision. Experiments show that our method improves robustness under missing modality while preserving performance with full multimodal input.
Abstract（参考訳）: マルチモーダルフェイクニュース検出(MFND)は、テキストと視覚的証拠を共同で活用することで、ニュースの信頼性を検証することを目的としている。しかし、現実世界のニュース拡散は、削除された画像、破損したスクリーンショット、その他の問題により、しばしばモダリティの欠如に悩まされる。したがって、このシナリオにおけるロバストな検出には各モードに対する強い検証能力が必要であるが、これはMFNDでは低属性のモダリティの学習が不十分で、単調アノテーションが不足しているため困難である。この問題に対処するため,マルチモーダル大言語モデル(MLLM)における高次モダリティスペシャライゼーションを提案する。具体的には,まず,MLLMにおけるアテンションヘッドと,モダリティの欠如によるパフォーマンスとの関係を体系的に検討し,モダリティクリティカルヘッドがモダリティの特殊化を通じて,モダリティ認証能力のキーキャリアとなることを示す。本研究は,低配当モダリティの検証能力を向上するために,これらのヘッドを異なるモダリティに明示的に割り当て,低バウンドアテンション制約によってそれらの特殊化を保ちながら,頭部の特殊化機構を導入する。さらに, 少ない一助的アノテーションをうまく活用するために, 限られた監督から学んだ一助的知識からこれらの頭が遠ざけられないようにするための一助的知識保持戦略を提案する。実験により,本手法は完全マルチモーダル入力で性能を保ちながら,モダリティの欠如によるロバスト性の向上を示す。

関連論文リスト

Beyond Unimodal Shortcuts: MLLMs as Cross-Modal Reasoners for Grounded Named Entity Recognition [51.68340973140949]
GMNER(Multimodal Named Entity Recognition)は、テキストベースのエンティティを抽出し、セマンティックカテゴリを割り当て、それらを対応する視覚領域に接地することを目的としている。 MLLMは、視覚バイアスやテキストバイアスを含む$textbfmodality bias$を示す。本稿では,モダリティを考慮した一貫性推論(bfMCR$)を提案する。
論文参考訳（メタデータ） (2026-02-04T12:12:49Z)
Multimodal Negative Learning [55.67017420486548]
我々は新しい学習パラダイム"学習すべきでない"(Negative Learning)を提案する。弱いモダリティのターゲットクラス予測を強化する代わりに、支配的なモダリティは弱いモダリティを動的に導き、非ターゲットクラスを抑える。これは決定空間を安定化させ、モダリティ固有の情報を保存する。
論文参考訳（メタデータ） (2025-10-23T11:47:11Z)
ADMC: Attention-based Diffusion Model for Missing Modalities Feature Completion [25.1725138364452]
注意に基づく障害特徴補完(ADMC)のための拡散モデルを提案する。本フレームワークは,各モダリティに対する特徴抽出ネットワークを独立に訓練し,その特性を保ち,オーバーカップリングを回避する。提案手法は,IEMOCAPおよびMIntRecベンチマークの最先端結果を実現し,欠落シナリオと完全モダリティシナリオの両方において,その有効性を示す。
論文参考訳（メタデータ） (2025-07-08T03:08:52Z)
Multimodal Inverse Attention Network with Intrinsic Discriminant Feature Exploitation for Fake News Detection [6.377687638891252]
マルチモーダルフェイクニュース検出は、社会保障に深く影響しているため、大きな注目を集めている。本稿では,ニュースコンテンツに基づく固有識別特徴を探索し,偽ニュース検出を推し進める新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-02-03T07:58:22Z)
PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。 PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文参考訳（メタデータ） (2025-01-16T08:04:04Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Exploiting modality-invariant feature for robust multimodal emotion recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文参考訳（メタデータ） (2022-10-27T12:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。