論文の概要: CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes
- arxiv url: http://arxiv.org/abs/2504.19212v1
- Date: Sun, 27 Apr 2025 12:31:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.182111
- Title: CapsFake: A Multimodal Capsule Network for Detecting Instruction-Guided Deepfakes
- Title(参考訳): CapsFake: 命令誘導型ディープフェイクを検出するマルチモーダルカプセルネットワーク
- Authors: Tuan Nguyen, Naseem Khan, Issa Khalil,
- Abstract要約: ディープフェイク技術は、微妙でコンテキスト対応の操作を可能にすることによって、デジタル画像の完全性を脅かす。
本稿では,低レベルのカプセルを視覚,テキスト,周波数領域のモダリティから統合することにより,このような深層画像編集を検出するために設計されたCapsFakeを提案する。
競争的なルーティング機構を通じて予測される高レベルカプセルは、局所的な特徴を動的に集約し、精密に操作された領域を識別する。
- 参考スコア(独自算出の注目度): 3.2194551406014886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of deepfake technology, particularly in instruction-guided image editing, threatens the integrity of digital images by enabling subtle, context-aware manipulations. Generated conditionally from real images and textual prompts, these edits are often imperceptible to both humans and existing detection systems, revealing significant limitations in current defenses. We propose a novel multimodal capsule network, CapsFake, designed to detect such deepfake image edits by integrating low-level capsules from visual, textual, and frequency-domain modalities. High-level capsules, predicted through a competitive routing mechanism, dynamically aggregate local features to identify manipulated regions with precision. Evaluated on diverse datasets, including MagicBrush, Unsplash Edits, Open Images Edits, and Multi-turn Edits, CapsFake outperforms state-of-the-art methods by up to 20% in detection accuracy. Ablation studies validate its robustness, achieving detection rates above 94% under natural perturbations and 96% against adversarial attacks, with excellent generalization to unseen editing scenarios. This approach establishes a powerful framework for countering sophisticated image manipulations.
- Abstract(参考訳): ディープフェイク技術の急速な進化、特に命令誘導画像編集において、微妙でコンテキスト対応の操作を可能にすることによってデジタル画像の整合性を脅かす。
実際の画像とテキストのプロンプトから条件付きで生成されたこれらの編集は、人間と既存の検知システムの両方に認識できないことが多く、現在の防御に重大な制限があることが示される。
本稿では,低レベルのカプセルを視覚,テキスト,周波数領域のモダリティから統合することにより,このような深層画像の編集を検知する新しい多モードカプセルネットワークCapsFakeを提案する。
競争的なルーティング機構を通じて予測される高レベルカプセルは、局所的な特徴を動的に集約し、精密に操作された領域を識別する。
MagicBrush、Unsplash Edits、Open Images Edits、Multi-turn Editsなど、さまざまなデータセットを評価することで、CapsFakeは検出精度を最大20%向上させる。
アブレーション研究は、その頑健さを検証し、自然摂動下では94%以上の検出率、敵の攻撃に対して96%を達成し、目に見えない編集シナリオに優れた一般化をもたらす。
このアプローチは、高度な画像操作に対応するための強力なフレームワークを確立する。
関連論文リスト
- Crane: Context-Guided Prompt Learning and Attention Refinement for Zero-Shot Anomaly Detections [50.343419243749054]
異常検出(AD)は、通常のデータ分布から逸脱を識別する。
本稿では,視覚エンコーダから抽出した画像コンテキストに基づいて,テキストエンコーダのプロンプトを条件付ける手法を提案する。
提案手法は,14のデータセットにおいて,各メトリクスに対して2%から29%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-04-15T10:42:25Z) - Conditioned Prompt-Optimization for Continual Deepfake Detection [11.634681724245933]
本稿では,Pmpt2Guardについて紹介する。
我々は,読み出し専用プロンプトを用いた予測アンサンブル手法を活用し,複数のフォワードパスの必要性を軽減した。
提案手法は,ディープフェイク検出に適したテキスト・プロンプト・コンディショニングを利用する。
論文 参考訳(メタデータ) (2024-07-31T12:22:57Z) - Robust CLIP-Based Detector for Exposing Diffusion Model-Generated Images [13.089550724738436]
拡散モデル(DM)は画像生成に革命をもたらし、様々な分野にまたがる高品質な画像を生成する。
超現実的画像を作成する能力は、現実的コンテンツと合成的コンテンツを区別する上で大きな課題となる。
この研究は、CLIPモデルによって抽出された画像とテキストの特徴をMLP(Multilayer Perceptron)分類器と統合する堅牢な検出フレームワークを導入する。
論文 参考訳(メタデータ) (2024-04-19T14:30:41Z) - MMNet: Multi-Collaboration and Multi-Supervision Network for Sequential
Deepfake Detection [81.59191603867586]
シークエンシャルディープフェイク検出は、回復のための正しいシーケンスで偽の顔領域を特定することを目的としている。
偽画像の復元には、逆変換を実装するための操作モデルの知識が必要である。
顔画像の空間スケールや逐次順列化を扱うマルチコラボレーション・マルチスーパービジョンネットワーク(MMNet)を提案する。
論文 参考訳(メタデータ) (2023-07-06T02:32:08Z) - Building an Invisible Shield for Your Portrait against Deepfakes [34.65356811439098]
本稿では,画像のプロアクティブな保護を目的とした新しいフレームワーク,Integity Encryptorを提案する。
提案手法では,重要な顔属性と密接な関係を持つメッセージを,秘密に符号化する。
修正された顔属性は、デコードされたメッセージの比較を通じて、操作された画像を検出する手段として機能する。
論文 参考訳(メタデータ) (2023-05-22T10:01:28Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Detect and Locate: A Face Anti-Manipulation Approach with Semantic and
Noise-level Supervision [67.73180660609844]
本稿では,画像中の偽造顔を効率的に検出する,概念的にシンプルだが効果的な方法を提案する。
提案手法は,画像に関する意味の高い意味情報を提供するセグメンテーションマップに依存する。
提案モデルでは,最先端検出精度と顕著なローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2021-07-13T02:59:31Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Image Manipulation Detection by Multi-View Multi-Scale Supervision [11.319080833880307]
画像操作検出の主な課題は、新しいデータの操作に敏感な一般化可能な特徴の学習方法である。
本稿では,多視点特徴学習とマルチスケール監視による両面の考察を行う。
我々の思考はMVSS-Netと呼ばれる新しいネットワークによって実現される。
論文 参考訳(メタデータ) (2021-04-14T13:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。