論文の概要: Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations
- arxiv url: http://arxiv.org/abs/2509.12653v1
- Date: Tue, 16 Sep 2025 04:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.880776
- Title: Beyond Artificial Misalignment: Detecting and Grounding Semantic-Coordinated Multimodal Manipulations
- Title(参考訳): 人工的ミスアライメントを超えて:セマンティック・コーディネート・マルチモーダル・マニピュレーションの検出と接地
- Authors: Jinjie Shen, Yaxiong Wang, Lechao Cheng, Nan Pu, Zhun Zhong,
- Abstract要約: マルチモーダルデータにおける意味的協調操作の検出の先駆者となった。
本稿では,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
我々のフレームワークは既存の手法よりも優れており、SAMMの精度は最先端の手法に比べて2.06%高い。
- 参考スコア(独自算出の注目度): 56.816929931908824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection and grounding of manipulated content in multimodal data has emerged as a critical challenge in media forensics. While existing benchmarks demonstrate technical progress, they suffer from misalignment artifacts that poorly reflect real-world manipulation patterns: practical attacks typically maintain semantic consistency across modalities, whereas current datasets artificially disrupt cross-modal alignment, creating easily detectable anomalies. To bridge this gap, we pioneer the detection of semantically-coordinated manipulations where visual edits are systematically paired with semantically consistent textual descriptions. Our approach begins with constructing the first Semantic-Aligned Multimodal Manipulation (SAMM) dataset, generated through a two-stage pipeline: 1) applying state-of-the-art image manipulations, followed by 2) generation of contextually-plausible textual narratives that reinforce the visual deception. Building on this foundation, we propose a Retrieval-Augmented Manipulation Detection and Grounding (RamDG) framework. RamDG commences by harnessing external knowledge repositories to retrieve contextual evidence, which serves as the auxiliary texts and encoded together with the inputs through our image forgery grounding and deep manipulation detection modules to trace all manipulations. Extensive experiments demonstrate our framework significantly outperforms existing methods, achieving 2.06\% higher detection accuracy on SAMM compared to state-of-the-art approaches. The dataset and code are publicly available at https://github.com/shen8424/SAMM-RamDG-CAP.
- Abstract(参考訳): マルチモーダルデータにおける操作済みコンテンツの検出とグラウンド化は、メディアの法医学において重要な課題となっている。
現実的な攻撃は通常、モジュール間のセマンティックな一貫性を維持するが、現在のデータセットはクロスモーダルなアライメントを人工的に破壊し、容易に検出可能な異常を生成する。
このギャップを埋めるために、視覚的な編集を意味的に一貫したテキスト記述と体系的に組み合わせた意味的に協調した操作の検出を開拓した。
我々のアプローチは、2段階のパイプラインから生成される最初のセマンティックアライメント・マルチモーダル・マニピュレーション(SAMM)データセットの構築から始まります。
1)最先端の画像操作を施し、次いで
2)視覚的騙しを強める文脈的賞賛可能な文章物語の生成。
本稿では,この基盤を基盤として,RamDG(Retrieval-Augmented Manipulation Detection and Grounding)フレームワークを提案する。
RamDGは、外部知識リポジトリを利用してコンテキスト証拠を検索し、補助的なテキストとして機能し、画像フォージェリーグラウンドとディープ操作検出モジュールを通じて入力と共にエンコードして、すべての操作をトレースする。
大規模な実験により,本フレームワークは既存の手法よりも優れた性能を示し,SAMMによる検出精度は最先端の手法に比べて26%向上した。
データセットとコードはhttps://github.com/shen8424/SAMM-RamDG-CAPで公開されている。
関連論文リスト
- Unmasking Synthetic Realities in Generative AI: A Comprehensive Review of Adversarially Robust Deepfake Detection Systems [4.359154048799454]
ディープフェイク拡散合成メディアは、デジタルセキュリティ、誤情報緩和、アイデンティティ保護に挑戦する。
本研究の体系的レビューでは, 再現性のある実装の透明性と検証を重視した, 最先端のディープフェイク検出手法の評価を行う。
1) 統計的異常や階層的特徴抽出を利用した完全合成メディアの検出,(2) 視覚的アーティファクトや時間的不整合といったマルチモーダルな手がかりを用いた実コンテンツ中の操作された領域の局在化。
論文 参考訳(メタデータ) (2025-07-24T22:05:52Z) - Unleashing the Potential of Consistency Learning for Detecting and Grounding Multi-Modal Media Manipulation [40.97921191007003]
本研究では,DGM4における偽造の微粒化認識能力を高めるために,CSCL (Contextual-Semantic Consistency Learning) という新しい手法を提案する。
具体的に言うと、各モジュールは、トークンペアの異種情報から追加の監視を活用することで、一貫性機能を構築する。
DGM4の実験により、CSCLは、特に接地されたコンテンツに対して、新しい最先端のパフォーマンスを達成することが証明された。
論文 参考訳(メタデータ) (2025-06-06T08:59:07Z) - The Coherence Trap: When MLLM-Crafted Narratives Exploit Manipulated Visual Contexts [17.31556625041178]
マルチメディア操作は、AIが生成した偽情報と戦う上で重要な課題として浮上した。
本稿では,MLLMが高リスク情報を生成するための新しい対向パイプラインを提案する。
MLLMフレームワークを用いたアーチファクト対応マニピュレーション診断について述べる。
論文 参考訳(メタデータ) (2025-05-23T04:58:27Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - Detecting and Grounding Multi-Modal Media Manipulation and Beyond [93.08116982163804]
マルチモーダルフェイクメディア(DGM4)の新たな研究課題について述べる。
DGM4は、マルチモーダルメディアの真正性を検出するだけでなく、操作されたコンテンツも検出することを目的としている。
本稿では,異なるモーダル間のきめ細かい相互作用を完全に捉えるために,新しい階層型マルチモーダルマニピュレーションrEasoning tRansformer(HAMMER)を提案する。
論文 参考訳(メタデータ) (2023-09-25T15:05:46Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - MD-CSDNetwork: Multi-Domain Cross Stitched Network for Deepfake
Detection [80.83725644958633]
現在のディープフェイク生成法では、偽画像やビデオの周波数スペクトルに識別的アーティファクトが残されている。
MD-CSDNetwork(MD-CSDNetwork)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T14:11:53Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。