論文の概要: Bridging Pixels and Words: Mask-Aware Local Semantic Fusion for Multimodal Media Verification
- arxiv url: http://arxiv.org/abs/2603.26052v1
- Date: Fri, 27 Mar 2026 03:38:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.347559
- Title: Bridging Pixels and Words: Mask-Aware Local Semantic Fusion for Multimodal Media Verification
- Title(参考訳): 画像と単語のブリッジ:マルチモーダルメディア検証のためのマスク対応ローカルセマンティックフュージョン
- Authors: Zizhao Chen, Ping Wei, Ziyang Ren, Huan Li, Xiangru Yin,
- Abstract要約: MaLSF(Mask-aware Local Semantic Fusion)は、パラダイムをアクティブな双方向検証に移行する新しいフレームワークである。
マスクとラベルのペアをセマンティックアンカーとして使用し、ピクセルと単語をブリッジする。
MaLSFはDGM4とマルチモーダルのフェイクニュース検出タスクの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 13.571218577944032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As multimodal misinformation becomes more sophisticated, its detection and grounding are crucial. However, current multimodal verification methods, relying on passive holistic fusion, struggle with sophisticated misinformation. Due to 'feature dilution,' global alignments tend to average out subtle local semantic inconsistencies, effectively masking the very conflicts they are designed to find. We introduce MaLSF (Mask-aware Local Semantic Fusion), a novel framework that shifts the paradigm to active, bidirectional verification, mimicking human cognitive cross-referencing. MaLSF utilizes mask-label pairs as semantic anchors to bridge pixels and words. Its core mechanism features two innovations: 1) a Bidirectional Cross-modal Verification (BCV) module that acts as an interrogator, using parallel query streams (Text-as-Query and Image-as-Query) to explicitly pinpoint conflicts; and 2) a Hierarchical Semantic Aggregation (HSA) module that intelligently aggregates these multi-granularity conflict signals for task-specific reasoning. In addition, to extract fine-grained mask-label pairs, we introduce a set of diverse mask-label pair extraction parsers. MaLSF achieves state-of-the-art performance on both the DGM4 and multimodal fake news detection tasks. Extensive ablation studies and visualization results further verify its effectiveness and interpretability.
- Abstract(参考訳): マルチモーダルな誤報がより洗練されるにつれて、その検出と接地が重要となる。
しかし、現在のマルチモーダル検証手法は、パッシブ・ホメスティック・フュージョン(英語版)に依存し、洗練された誤報に悩まされている。
機能的希釈」により、グローバルアライメントは微妙な局所的な意味的不整合を平均化し、彼らが見つけるように設計された紛争を効果的に隠蔽する傾向にある。
MaLSF(Mask-aware Local Semantic Fusion)は,人間の認知的相互参照を模倣して,パラダイムをアクティブかつ双方向な検証に移行する新しいフレームワークである。
MaLSFは、マスクとラベルのペアをセマンティックアンカーとして使用し、ピクセルと単語をブリッジする。
その中核となるメカニズムは2つのイノベーションである。
1) 並列クエリストリーム(Text-as-QueryとImage-as-Query)を使用して競合を明示的に特定する双方向クロスモーダル検証(BCV)モジュール。
2)階層的セマンティック・アグリゲーション(HSA)モジュールは,タスク固有の推論のために,これらの多粒性競合信号をインテリジェントに集約する。
さらに, マスクラベル対を微細に抽出するために, 多様なマスクラベル対抽出パーサを導入する。
MaLSFはDGM4とマルチモーダルのフェイクニュース検出タスクの両方で最先端のパフォーマンスを達成する。
広範囲にわたるアブレーション研究と可視化結果は、その有効性と解釈可能性をさらに検証する。
関連論文リスト
- SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment [8.657941729790599]
本稿では,パッチの冗長性と曖昧性に体系的に対処するセマンティック・エンハンスト・パッチ・スライミング(SEPS)フレームワークを紹介する。
提案手法では,密文と疎文の両方から統合されたセマンティクスを統合するための2段階の機構を用いて,視覚的パッチを識別する。
Flickr30KとMS-COCOデータセットの実験は、SEPSが優れたパフォーマンスを達成することを検証する。
論文 参考訳(メタデータ) (2025-11-03T09:41:32Z) - KGAlign: Joint Semantic-Structural Knowledge Encoding for Multimodal Fake News Detection [3.221633413708485]
本稿では,視覚的,テキスト的,知識に基づく表現を統合した,新しいマルチモーダルフェイクニュース検出フレームワークを提案する。
本提案では,知識基底型マルチモーダル推論という新たなパラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-18T13:08:38Z) - Mixture-of-Noises Enhanced Forgery-Aware Predictor for Multi-Face Manipulation Detection and Localization [52.87635234206178]
本稿では,多面的操作検出と局所化に適したMoNFAPという新しいフレームワークを提案する。
このフレームワークには2つの新しいモジュールが含まれている: Forgery-aware Unified Predictor (FUP) Module と Mixture-of-Noises Module (MNM)。
論文 参考訳(メタデータ) (2024-08-05T08:35:59Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。