論文の概要: CapST: Leveraging Capsule Networks and Temporal Attention for Accurate Model Attribution in Deep-fake Videos
- arxiv url: http://arxiv.org/abs/2311.03782v4
- Date: Thu, 12 Jun 2025 08:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:21.955404
- Title: CapST: Leveraging Capsule Networks and Temporal Attention for Accurate Model Attribution in Deep-fake Videos
- Title(参考訳): CapST:ディープフェイクビデオにおけるカプセルネットワークの活用と正確なモデル属性に対する時間的注意
- Authors: Wasim Ahmad, Yan-Tsung Peng, Yuan-Hao Chang, Gaddisa Olani Ganfure, Sarwar Khan,
- Abstract要約: 特定の生成モデルやエンコーダにディープフェイクを加えることは、法医学的な分析に不可欠であり、ソースと調整された対策を可能にする。
本研究では、異なるモデル(DFDM)からのディープフェイクとGANGen-Detectionの2つのデータセットを用いたディープフェイクビデオのモデル属性問題について検討する。
本稿では,Truncated VGG19ネットワークを統合した新しいCapsule-Spatial-Cap(CapST)モデルを提案する。
- 参考スコア(独自算出の注目度): 9.209808258321559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep-fake videos, generated through AI face-swapping techniques, have gained significant attention due to their potential for impactful impersonation attacks. While most research focuses on real vs. fake detection, attributing a deep-fake to its specific generation model or encoder is vital for forensic analysis, enabling source tracing and tailored countermeasures. This enhances detection by leveraging model-specific artifacts and supports proactive defenses. We investigate the model attribution problem for deep-fake videos using two datasets: Deepfakes from Different Models (DFDM) and GANGen-Detection, both comprising deep-fake videos and GAN-generated images. We use only fake images from GANGen-Detection to align with DFDM's focus on attribution rather than binary classification. We formulate the task as a multiclass classification problem and introduce a novel Capsule-Spatial-Temporal (CapST) model that integrates a truncated VGG19 network for feature extraction, capsule networks for hierarchical encoding, and a spatio-temporal attention mechanism. Video-level fusion captures temporal dependencies across frames. Experiments on DFDM and GANGen-Detection show CapST outperforms baseline models in attribution accuracy while reducing computational cost.
- Abstract(参考訳): AIのフェイススワッピング技術によって生成されたディープフェイクビデオは、インパクトのある偽造攻撃の可能性から大きな注目を集めている。
ほとんどの研究は実数対偽検出に重点を置いているが、特定の生成モデルやエンコーダにディープフェイクをもたらすことは法医学的な分析に不可欠であり、ソーストレースと調整された対策を可能にする。
これにより、モデル固有のアーティファクトを活用して検出を強化し、積極的な防御をサポートする。
本研究では、異なるモデル(DFDM)とGANGen-Detectionの2つのデータセットを用いて、ディープフェイク映像とGAN生成画像からなるディープフェイク映像のモデル属性問題について検討する。
我々は,GANGen-Detectionの偽画像のみを用いて,二項分類ではなく,DFDMの帰属に焦点を合わせている。
本稿では,マルチクラス分類問題としてタスクを定式化し,特徴抽出のための切り離されたVGG19ネットワーク,階層符号化のためのカプセルネットワーク,時空間アテンション機構を統合した新しいCapsule-Spatial-Temporal (CapST)モデルを導入する。
ビデオレベルの融合はフレーム間の時間的依存関係をキャプチャする。
DFDMとGANGen-Detectionの実験では、CapSTは計算コストを削減しつつ、帰属精度でベースラインモデルより優れていた。
関連論文リスト
- AccVideo: Accelerating Video Diffusion Model with Synthetic Dataset [55.82208863521353]
合成データセットを用いたビデオ拡散モデルの高速化のための推論ステップを削減するために,AccVideoを提案する。
本モデルでは,教師モデルに比べて生成速度が8.5倍向上した。
従来の高速化手法と比較して,より高品質で解像度の高いビデオを生成することができる。
論文 参考訳(メタデータ) (2025-03-25T08:52:07Z) - Deepfake Detection with Spatio-Temporal Consistency and Attention [46.1135899490656]
ディープフェイクビデオは、現実主義の高まりにより、コミュニティの間で懸念が高まっている。
鍛造ビデオ検出の現在の方法は、主にグローバルなフレーム機能に依存している。
本稿では,偽ビデオの局所的な操作的シグネチャに着目したニューラルディープフェイク検出器を提案する。
論文 参考訳(メタデータ) (2025-02-12T08:51:33Z) - Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。
生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。
通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T16:51:11Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。
ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。
本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T21:52:49Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Deepfake Video Detection Using Generative Convolutional Vision
Transformer [3.8297637120486496]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - The Effectiveness of Temporal Dependency in Deepfake Video Detection [0.0]
本稿では,時間的情報によって深層学習モデルの深部学習性能が向上するかどうかを検討する。
その結果,時間依存性は実画像の分類において統計的に顕著な増加をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-05-13T14:39:25Z) - Model Attribution of Face-swap Deepfake Videos [39.771800841412414]
まず、いくつかのAutoencoderモデルに基づいて、DeepFakes from Different Models (DFDM)を用いた新しいデータセットを導入する。
具体的には、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの世代モデルを用いて、合計6450のDeepfakeビデオを生成する。
我々は,Deepfakesモデルの属性を多クラス分類タスクとして捉え,Deepfakes間の差異を探索するための空間的・時間的注意に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T20:05:18Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。