論文の概要: The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts
- arxiv url: http://arxiv.org/abs/2505.17476v1
- Date: Fri, 23 May 2025 04:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.826174
- Title: The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts
- Title(参考訳): コヒーレンストラップ:MLLMで作られた物語が視覚的コンテキストを操作するとき
- Authors: Yuchen Zhang, Yaxiong Wang, Yujiao Wu, Lianwei Wu, Li Zhu,
- Abstract要約: マルチメディア操作は、AIが生成した偽情報と戦う上で重要な課題として浮上した。
本稿では,MLLMが高リスク情報を生成するための新しい対向パイプラインを提案する。
MLLMフレームワークを用いたアーチファクト対応マニピュレーション診断について述べる。
- 参考スコア(独自算出の注目度): 17.31556625041178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The detection and grounding of multimedia manipulation has emerged as a critical challenge in combating AI-generated disinformation. While existing methods have made progress in recent years, we identify two fundamental limitations in current approaches: (1) Underestimation of MLLM-driven deception risk: prevailing techniques primarily address rule-based text manipulations, yet fail to account for sophisticated misinformation synthesized by multimodal large language models (MLLMs) that can dynamically generate semantically coherent, contextually plausible yet deceptive narratives conditioned on manipulated images; (2) Unrealistic misalignment artifacts: currently focused scenarios rely on artificially misaligned content that lacks semantic coherence, rendering them easily detectable. To address these gaps holistically, we propose a new adversarial pipeline that leverages MLLMs to generate high-risk disinformation. Our approach begins with constructing the MLLM-Driven Synthetic Multimodal (MDSM) dataset, where images are first altered using state-of-the-art editing techniques and then paired with MLLM-generated deceptive texts that maintain semantic consistency with the visual manipulations. Building upon this foundation, we present the Artifact-aware Manipulation Diagnosis via MLLM (AMD) framework featuring two key innovations: Artifact Pre-perception Encoding strategy and Manipulation-Oriented Reasoning, to tame MLLMs for the MDSM problem. Comprehensive experiments validate our framework's superior generalization capabilities as a unified architecture for detecting MLLM-powered multimodal deceptions.
- Abstract(参考訳): マルチメディア操作の検出と基盤は、AI生成した偽情報と戦う上で重要な課題として浮上している。
MLLMによる偽造リスクの過小評価: 主にルールベースのテキスト操作に対処するが、マルチモーダルな大規模言語モデル(MLLM)によって動的に意味的に一貫性があり、文脈的に検証可能で、認識されやすい物語を動的に生成できる洗練された誤情報を説明できない; 2)非現実的な誤認識アーティファクト: 現在焦点を絞ったシナリオは、意味的一貫性に欠ける、人工的に不整合したコンテンツに依存しており、それらを容易に検出できる。
これらのギャップを均等に解決するために,MLLMを利用して高リスク情報を生成する新しい対向パイプラインを提案する。
本手法は,MLLM-Driven Synthetic Multimodal (MDSM)データセットの構築から始まっている。
本稿では,MLLM(Artifact Pre-Perception Encoding Strategy)とManipulation-Oriented Reasoning(Manipulation-Oriented Reasoning)という,MLLM(Artifact Pre-Perception Encoding Strategy)という2つの重要なイノベーションを特徴とするMLLM(Artifact-Aware Manipulation Diagnosis)フレームワークを提案する。
総合的な実験により、MLLMを利用したマルチモーダル偽装検出のための統一アーキテクチャとして、我々のフレームワークの優れた一般化能力を検証する。
関連論文リスト
- MLLM-Enhanced Face Forgery Detection: A Vision-Language Fusion Solution [36.79921476565535]
VLF-FFDはMLLM強化顔偽造検出のための新しいビジョン・ランゲージ・フュージョン・ソリューションである。
EFF++は、広く使用されているFaceForensics++データセットのフレームレベル、説明可能性駆動拡張である。
VLF-FFDは、クロスデータセットおよびイントラデータセット評価の両方において、最先端(SOTA)性能を達成する。
論文 参考訳(メタデータ) (2025-05-04T06:58:21Z) - MADLLM: Multivariate Anomaly Detection via Pre-trained LLMs [28.943480387462703]
本稿では,事前学習LLMを用いた新しい多変量異常検出手法MADLLMを紹介する。
本手法は,従来のパッチ埋め込み手法と2つの新しい埋め込み手法を統合し,MTSモダリティをLLMのテキストモダリティと整合させる新しい3重符号化手法を設計する。
論文 参考訳(メタデータ) (2025-04-13T10:07:52Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning [5.9767694994869425]
MLLM(Multimodal Large Language Models)は、テキストベースの数学的問題の解法として優れている。
彼らは、主に自然の風景画像で訓練されているため、数学的図形に苦しむ。
本研究では,プログレッシブ・アップワード・マルチモーダルアライメントに着目したMath-PUMAを提案する。
論文 参考訳(メタデータ) (2024-08-16T10:11:05Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - NoteLLM-2: Multimodal Large Representation Models for Recommendation [71.87790090964734]
大規模言語モデル(LLM)は、テキスト理解や埋め込みタスクにおいて、例外的な習熟度を示している。
マルチモーダル表現のポテンシャル、特にアイテムツーイテム(I2I)レコメンデーションについては、未解明のままである。
本稿では,既存のLLMと視覚エンコーダの統合をカスタマイズし,効率的なマルチモーダル表現を実現するエンド・ツー・エンドのファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T03:24:01Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。