論文の概要: Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.15489v1
- Date: Wed, 21 May 2025 13:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.65286
- Title: Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models
- Title(参考訳): 錯覚を通して見る:視覚言語モデルを用いたマルチモーダルニュースにおけるミスリーディング・クリエーターインテントの発見
- Authors: Jiaying Wu, Fanxiao Li, Min-Yen Kan, Bryan Hooi,
- Abstract要約: 本稿では,創造者の意図を明示的にモデル化することで,現実のマルチモーダルニュース作成をシミュレートする自動化フレームワークを提案する。
DeceptionDecodedは、信頼できる参照記事と一致した12,000のイメージキャプチャペアからなるベンチマークである。
我々は3つの意図中心のタスクに対して、14の最先端ビジョン言語モデル(VLM)の包括的な評価を行う。
- 参考スコア(独自算出の注目度): 48.2311603411121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The real-world impact of misinformation stems from the underlying misleading narratives that creators seek to convey. As such, interpreting misleading creator intent is essential for multimodal misinformation detection (MMD) systems aimed at effective information governance. In this paper, we introduce an automated framework that simulates real-world multimodal news creation by explicitly modeling creator intent through two components: the desired influence and the execution plan. Using this framework, we construct DeceptionDecoded, a large-scale benchmark comprising 12,000 image-caption pairs aligned with trustworthy reference articles. The dataset captures both misleading and non-misleading intents and spans manipulations across visual and textual modalities. We conduct a comprehensive evaluation of 14 state-of-the-art vision-language models (VLMs) on three intent-centric tasks: (1) misleading intent detection, (2) misleading source attribution, and (3) creator desire inference. Despite recent advances, we observe that current VLMs fall short in recognizing misleading intent, often relying on spurious cues such as superficial cross-modal consistency, stylistic signals, and heuristic authenticity hints. Our findings highlight the pressing need for intent-aware modeling in MMD and open new directions for developing systems capable of deeper reasoning about multimodal misinformation.
- Abstract(参考訳): 誤報の現実的な影響は、創造者が伝えようとする誤解を招く物語に起因している。
このように、情報ガバナンスを効果的に進めるための多モード誤情報検出(MMD)システムには、誤解を招く創造者意図の解釈が不可欠である。
本稿では,現実のマルチモーダルニュース作成をシミュレートするフレームワークを提案する。このフレームワークは,創造者の意図を2つのコンポーネント(所望の影響と実行計画)で明示的にモデル化することで,現実のマルチモーダルニュース作成をシミュレートする。
このフレームワークを用いて,信頼性の高い参照記事と一致した12,000のイメージキャプチャペアからなる大規模ベンチマークであるDeceptionDecodedを構築した。
データセットは誤解を招く意図と誤解を招く意図の両方をキャプチャし、視覚的およびテキスト的モダリティにまたがる操作を分散する。
我々は,(1)意図検出の誤認,(2)帰属の誤認,(3)創造者の欲求推定の3つの課題に対して,14の最先端ビジョン言語モデル(VLM)を包括的に評価する。
近年の進歩にもかかわらず、現在のVLMは誤解を招く意図を認識するのに不足しており、表面的相互整合性、スタイリスティックな信号、ヒューリスティックな認証ヒントなどの急激な手がかりに頼っていることが多い。
本研究は,MDDにおける意図認識モデリングの必要性と,マルチモーダル誤報を深く推し進めるシステム開発への新たな方向性を明らかにすることを目的としたものである。
関連論文リスト
- Intent Representation Learning with Large Language Model for Recommendation [11.118517297006894]
モデルに依存しないフレームワークIRLLRec(Intent Representation Learning with Large Language Model)を提案する。
具体的には、IRLLRecはマルチモーダルなインテント表現を学ぶためにデュアルトウワーアーキテクチャを採用している。
テキストと対話に基づく意図をよりよく一致させるため、融合した意図表現を教師が学習するためにモーメント蒸留を用いる。
論文 参考訳(メタデータ) (2025-02-05T16:08:05Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Inconsistent Matters: A Knowledge-guided Dual-consistency Network for
Multi-modal Rumor Detection [53.48346699224921]
マルチメディアコンテンツによる噂を検出するために,知識誘導型二元整合ネットワークを提案する。
2つの一貫性検出ツールを使用して、クロスモーダルレベルとコンテント知識レベルの不整合を同時にキャプチャする。
また、異なる視覚的モダリティ条件下で頑健なマルチモーダル表現学習を可能にする。
論文 参考訳(メタデータ) (2023-06-03T15:32:20Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。