論文の概要: Insight-A: Attribution-aware for Multimodal Misinformation Detection
- arxiv url: http://arxiv.org/abs/2511.21705v1
- Date: Mon, 17 Nov 2025 02:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.344965
- Title: Insight-A: Attribution-aware for Multimodal Misinformation Detection
- Title(参考訳): Insight-A:マルチモーダル誤情報検出のための属性認識
- Authors: Junjie Wu, Yumeng Fu, Chen Gong, Guohong Fu,
- Abstract要約: 本稿では,マルチモーダルな誤情報検出のためのMLLMインサイトによる属性探索を行うInsight-Aを提案する。
我々は、認知と推論の高度な相関をモデル化するために、クロス属性プロンプト(CAP)を考案する。
また,画像キャプション(IC)を設計し,相互整合性検査の精度向上を図る。
- 参考スコア(独自算出の注目度): 14.02125134424451
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: AI-generated content (AIGC) technology has emerged as a prevalent alternative to create multimodal misinformation on social media platforms, posing unprecedented threats to societal safety. However, standard prompting leverages multimodal large language models (MLLMs) to identify the emerging misinformation, which ignores the misinformation attribution. To this end, we present Insight-A, exploring attribution with MLLM insights for detecting multimodal misinformation. Insight-A makes two efforts: I) attribute misinformation to forgery sources, and II) an effective pipeline with hierarchical reasoning that detects distortions across modalities. Specifically, to attribute misinformation to forgery traces based on generation patterns, we devise cross-attribution prompting (CAP) to model the sophisticated correlations between perception and reasoning. Meanwhile, to reduce the subjectivity of human-annotated prompts, automatic attribution-debiased prompting (ADP) is used for task adaptation on MLLMs. Additionally, we design image captioning (IC) to achieve visual details for enhancing cross-modal consistency checking. Extensive experiments demonstrate the superiority of our proposal and provide a new paradigm for multimodal misinformation detection in the era of AIGC.
- Abstract(参考訳): AI生成コンテンツ(AIGC)技術は、ソーシャルメディアプラットフォーム上でマルチモーダルな誤情報を作成するための一般的な代替手段として登場し、社会的安全に対する前例のない脅威を呈している。
しかし、標準プロンプトはマルチモーダルな大言語モデル(MLLM)を活用して、誤情報の帰属を無視する新たな誤情報を特定する。
そこで我々は,マルチモーダル誤報検出のためのMLLMインサイトによる属性探索を行うInsight-Aを提案する。
Insight-Aは2つの取り組みを行う: (I) 偽情報に誤報を属性付け、(II) モダリティ間の歪みを検出する階層的推論を備えた効果的なパイプライン。
具体的には、生成パターンに基づく偽の痕跡に誤情報を与えるために、認識と推論の高度な相関をモデル化するために、クロス属性プロンプト(CAP)を考案する。
一方、人為的通知の主観性を低下させるため、MLLMのタスク適応には自動帰属遅延プロンプト(ADP)が使用される。
さらに,画像キャプション(IC)を設計して,相互整合性検査の精度を高める。
大規模な実験により提案手法の優位性を実証し,AIGC時代のマルチモーダル誤報検出のための新しいパラダイムを提供する。
関連論文リスト
- MMD-Thinker: Adaptive Multi-Dimensional Thinking for Multimodal Misinformation Detection [8.06079393106578]
マルチモーダルな誤報はさまざまなソーシャルメディアに溢れ、AIGC(AIGC)の時代においても進化を続けている。
近年の研究では、汎用多目的大言語モデル(MLLM)を活用して、検出において顕著な結果が得られている。
適応型多次元思考によるマルチモーダル誤情報検出のための2段階フレームワークであるMDD-Thinkerを提案する。
論文 参考訳(メタデータ) (2025-11-17T11:04:30Z) - IAD-GPT: Advancing Visual Knowledge in Multimodal Large Language Model for Industrial Anomaly Detection [70.02774285130238]
本稿では,リッチテキストセマンティクスと画像レベルの情報と画素レベルの情報の組み合わせについて検討する。
産業異常検出のためのMLLMに基づく新しいパラダイムであるIAD-GPTを提案する。
MVTec-ADとVisAデータセットの実験は、私たちの最先端のパフォーマンスを示しています。
論文 参考訳(メタデータ) (2025-10-16T02:48:05Z) - Towards Unified Multimodal Misinformation Detection in Social Media: A Benchmark Dataset and Baseline [56.790045049514326]
詐欺の2つの主要な形態は、人造誤報とAI生成コンテンツである。
両形態の偽造を扱うためのフレームワークであるUMFDet(Unified Multimodal Fake Content Detection)を提案する。
UMFDetは、両方の誤情報型に対して堅牢で一貫したパフォーマンスを実現し、特殊ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-09-30T09:26:32Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - CMIE: Combining MLLM Insights with External Evidence for Explainable Out-of-Context Misinformation Detection [14.140095146756996]
本稿では,OOC誤報を検出するための新しいフレームワークであるCMIEを提案する。
CMIEは、画像とテキスト間の基盤的共存を特定し、関連する証拠を選択的に利用して誤情報検出を強化する。
論文 参考訳(メタデータ) (2025-05-29T13:56:21Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。