論文の概要: Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.15489v3
- Date: Tue, 30 Sep 2025 17:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:03.989625
- Title: Seeing Through Deception: Uncovering Misleading Creator Intent in Multimodal News with Vision-Language Models
- Title(参考訳): 錯覚を通して見る:視覚言語モデルを用いたマルチモーダルニュースにおけるミスリーディング・クリエーターインテントの発見
- Authors: Jiaying Wu, Fanxiao Li, Zihang Fu, Min-Yen Kan, Bryan Hooi,
- Abstract要約: DeceptionDecodedは,信頼に値する参照記事に基づく12,000のイメージキャプチャペアのベンチマークである。
データセットは、誤解を招くケースと、誤解を招くケースの両方をキャプチャし、視覚的およびテキスト的モダリティにわたって操作する。
インテント中心の3つのタスク – 意図の検出を誤解させる、ソースの属性を誤解させる、創造的欲求推論 – をサポートしている。
- 参考スコア(独自算出の注目度): 65.23999399834638
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The impact of misinformation arises not only from factual inaccuracies but also from the misleading narratives that creators deliberately embed. Interpreting such creator intent is therefore essential for multimodal misinformation detection (MMD) and effective information governance. To this end, we introduce DeceptionDecoded, a large-scale benchmark of 12,000 image-caption pairs grounded in trustworthy reference articles, created using an intent-guided simulation framework that models both the desired influence and the execution plan of news creators. The dataset captures both misleading and non-misleading cases, spanning manipulations across visual and textual modalities, and supports three intent-centric tasks: (1) misleading intent detection, (2) misleading source attribution, and (3) creator desire inference. We evaluate 14 state-of-the-art vision-language models (VLMs) and find that they struggle with intent reasoning, often relying on shallow cues such as surface-level alignment, stylistic polish, or heuristic authenticity signals. These results highlight the limitations of current VLMs and position DeceptionDecoded as a foundation for developing intent-aware models that go beyond shallow cues in MMD.
- Abstract(参考訳): 誤報の影響は、事実的不正確さだけでなく、創造者が故意に埋め込んだ誤解を招く物語からも生じる。
したがって、そのような創造意図を解釈することは、マルチモーダル誤情報検出(MMD)と効果的な情報ガバナンスに不可欠である。
この目的のために、我々は、信頼できる参照記事に基づく12,000対の画像キャプチャーペアの大規模ベンチマークであるDeceptionDecodedを紹介し、ニュースクリエーターの望ましい影響と実行計画の両方をモデル化する意図誘導シミュレーションフレームワークを用いて作成する。
データセットは、誤解を招くケースと非誤解を招くケースの両方をキャプチャし、視覚的およびテキスト的モダリティにまたがる操作を網羅し、(1)誤解を招く意図の検出、(2)誤解を招くソース属性、(3)創造的欲求推論という3つの意図中心のタスクをサポートする。
我々は14の最先端の視覚言語モデル(VLM)を評価し、それらが意図的推論に苦慮していることに気付き、しばしば表面レベルのアライメント、スタイリスティックな研磨、ヒューリスティックな認証信号などの浅い手がかりに頼っている。
これらの結果は、MDDの浅瀬を超える意図認識モデルを開発する基盤として、現在のVLMとDeceptionDecodedの限界を強調している。
関連論文リスト
- Intent Representation Learning with Large Language Model for Recommendation [11.118517297006894]
モデルに依存しないフレームワークIRLLRec(Intent Representation Learning with Large Language Model)を提案する。
具体的には、IRLLRecはマルチモーダルなインテント表現を学ぶためにデュアルトウワーアーキテクチャを採用している。
テキストと対話に基づく意図をよりよく一致させるため、融合した意図表現を教師が学習するためにモーメント蒸留を用いる。
論文 参考訳(メタデータ) (2025-02-05T16:08:05Z) - Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.41431561403343]
偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文 参考訳(メタデータ) (2024-08-20T14:13:54Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Inconsistent Matters: A Knowledge-guided Dual-consistency Network for
Multi-modal Rumor Detection [53.48346699224921]
マルチメディアコンテンツによる噂を検出するために,知識誘導型二元整合ネットワークを提案する。
2つの一貫性検出ツールを使用して、クロスモーダルレベルとコンテント知識レベルの不整合を同時にキャプチャする。
また、異なる視覚的モダリティ条件下で頑健なマルチモーダル表現学習を可能にする。
論文 参考訳(メタデータ) (2023-06-03T15:32:20Z) - Interpretable Detection of Out-of-Context Misinformation with Neural-Symbolic-Enhanced Large Multimodal Model [16.348950072491697]
誤報の作者は、ニュース検出システムや偽ニュースを騙すために、マルチメディア以外のコンテンツを使う傾向が強まっている。
この新たなタイプの誤報は、検出だけでなく、個々のモダリティが真の情報に十分近いため、明確化の難しさも増す。
本稿では,不一致のペアと相互の矛盾を同時に識別する,解釈可能なクロスモーダル・デコンテクスト化検出を実現する方法について検討する。
論文 参考訳(メタデータ) (2023-04-15T21:11:55Z) - Detecting and Grounding Multi-Modal Media Manipulation [32.34908534582532]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:20:40Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Knowledge-enriched Attention Network with Group-wise Semantic for Visual
Storytelling [39.59158974352266]
視覚的なストーリーテリングは、関連した画像のグループから物語の多文を含む想像的で一貫性のあるストーリーを生成することを目的としている。
既存の手法では、画像以外の暗黙的な情報を探索することができないため、画像に基づくコンテンツの直接的および厳密な記述を生成することが多い。
これらの問題に対処するために,グループワイド・セマンティック・モデルを用いた新しい知識強化型アテンション・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-03-10T12:55:47Z) - Perceptual Score: What Data Modalities Does Your Model Perceive? [73.75255606437808]
モデルが入力特徴の異なる部分集合に依存する度合いを評価する指標である知覚スコアを導入する。
近年,視覚的質問応答に対するマルチモーダルモデルでは,前者よりも視覚的データを知覚しにくい傾向がみられた。
知覚スコアを使用することで、スコアをデータサブセットのコントリビューションに分解することで、モデルのバイアスを分析することもできる。
論文 参考訳(メタデータ) (2021-10-27T12:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。