論文の概要: CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos
- arxiv url: http://arxiv.org/abs/2311.03782v3
- Date: Mon, 22 Jan 2024 14:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:17:35.585271
- Title: CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos
- Title(参考訳): CapST: 合成ビデオのための強化された軽量モデル属性アプローチ
- Authors: Wasim Ahmad, Yan-Tsung Peng, Yuan-Hao Chang, Gaddisa Olani Ganfure,
Sarwar Khan, Sahibzada Adil Shahzad
- Abstract要約: 本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
- 参考スコア(独自算出の注目度): 9.209808258321559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfake videos, generated through AI faceswapping techniques, have garnered
considerable attention due to their potential for powerful impersonation
attacks. While existing research primarily focuses on binary classification to
discern between real and fake videos, however determining the specific
generation model for a fake video is crucial for forensic investigation.
Addressing this gap, this paper investigates the model attribution problem of
Deepfake videos from a recently proposed dataset, Deepfakes from Different
Models (DFDM), derived from various Autoencoder models. The dataset comprises
6,450 Deepfake videos generated by five distinct models with variations in
encoder, decoder, intermediate layer, input resolution, and compression ratio.
This study formulates Deepfakes model attribution as a multiclass
classification task, proposing a segment of VGG19 as a feature extraction
backbone, known for its effectiveness in imagerelated tasks, while integrated a
Capsule Network with a Spatio-Temporal attention mechanism. The Capsule module
captures intricate hierarchies among features for robust identification of
deepfake attributes. Additionally, the video-level fusion technique leverages
temporal attention mechanisms to handle concatenated feature vectors,
capitalizing on inherent temporal dependencies in deepfake videos. By
aggregating insights across frames, our model gains a comprehensive
understanding of video content, resulting in more precise predictions.
Experimental results on the deepfake benchmark dataset (DFDM) demonstrate the
efficacy of our proposed method, achieving up to a 4% improvement in accurately
categorizing deepfake videos compared to baseline models while demanding fewer
computational resources.
- Abstract(参考訳): ディープフェイクビデオはAIのフェイスウォーピング技術によって生成され、強力な偽造攻撃の可能性からかなりの注目を集めている。
既存の研究は、主に実物と偽物の区別のためのバイナリ分類に焦点を当てているが、偽の動画の特定の生成モデルを決定することは、法医学的な調査には不可欠である。
本稿では,様々なオートエンコーダモデルから派生した,最近提案されたデータセットDeepfakes from Different Models (DFDM) のDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
本研究では,VGG19のセグメントを特徴抽出バックボーンとして提案する多クラス分類タスクとしてDeepfakesモデル属性を定式化した。
カプセルモジュールは、ディープフェイク属性のロバストな識別のための特徴のうち複雑な階層をキャプチャする。
さらに、ビデオレベルの融合技術は、連続した特徴ベクトルを扱うために時間的注意機構を利用し、ディープフェイクビデオに固有の時間的依存性を生かしている。
フレームにまたがる洞察を集約することで、私たちのモデルはビデオコンテンツの包括的理解を獲得し、より正確な予測を可能にします。
deepfake benchmark dataset (dfdm) における実験結果は,提案手法の有効性を実証し,計算資源の少ないベースラインモデルと比較して,deepfakeビデオの精度を最大4%向上させた。
関連論文リスト
- Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。
生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。
通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T16:51:11Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。
ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。
本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-13T21:52:49Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Deepfake Video Detection Using Generative Convolutional Vision
Transformer [3.8297637120486496]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - The Effectiveness of Temporal Dependency in Deepfake Video Detection [0.0]
本稿では,時間的情報によって深層学習モデルの深部学習性能が向上するかどうかを検討する。
その結果,時間依存性は実画像の分類において統計的に顕著な増加をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-05-13T14:39:25Z) - Model Attribution of Face-swap Deepfake Videos [39.771800841412414]
まず、いくつかのAutoencoderモデルに基づいて、DeepFakes from Different Models (DFDM)を用いた新しいデータセットを導入する。
具体的には、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの世代モデルを用いて、合計6450のDeepfakeビデオを生成する。
我々は,Deepfakesモデルの属性を多クラス分類タスクとして捉え,Deepfakes間の差異を探索するための空間的・時間的注意に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T20:05:18Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。