論文の概要: CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos
- arxiv url: http://arxiv.org/abs/2311.03782v3
- Date: Mon, 22 Jan 2024 14:52:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:17:35.585271
- Title: CapST: An Enhanced and Lightweight Model Attribution Approach for
Synthetic Videos
- Title(参考訳): CapST: 合成ビデオのための強化された軽量モデル属性アプローチ
- Authors: Wasim Ahmad, Yan-Tsung Peng, Yuan-Hao Chang, Gaddisa Olani Ganfure,
Sarwar Khan, Sahibzada Adil Shahzad
- Abstract要約: 本稿では、最近提案されたデータセット、DFDM(Deepfakes from Different Models)からのDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
ディープフェイク・ベンチマーク・データセット(DFDM)による実験結果から提案手法の有効性が示され、ディープフェイク・ビデオの正確な分類において最大4%の改善が達成された。
- 参考スコア(独自算出の注目度): 9.209808258321559
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfake videos, generated through AI faceswapping techniques, have garnered
considerable attention due to their potential for powerful impersonation
attacks. While existing research primarily focuses on binary classification to
discern between real and fake videos, however determining the specific
generation model for a fake video is crucial for forensic investigation.
Addressing this gap, this paper investigates the model attribution problem of
Deepfake videos from a recently proposed dataset, Deepfakes from Different
Models (DFDM), derived from various Autoencoder models. The dataset comprises
6,450 Deepfake videos generated by five distinct models with variations in
encoder, decoder, intermediate layer, input resolution, and compression ratio.
This study formulates Deepfakes model attribution as a multiclass
classification task, proposing a segment of VGG19 as a feature extraction
backbone, known for its effectiveness in imagerelated tasks, while integrated a
Capsule Network with a Spatio-Temporal attention mechanism. The Capsule module
captures intricate hierarchies among features for robust identification of
deepfake attributes. Additionally, the video-level fusion technique leverages
temporal attention mechanisms to handle concatenated feature vectors,
capitalizing on inherent temporal dependencies in deepfake videos. By
aggregating insights across frames, our model gains a comprehensive
understanding of video content, resulting in more precise predictions.
Experimental results on the deepfake benchmark dataset (DFDM) demonstrate the
efficacy of our proposed method, achieving up to a 4% improvement in accurately
categorizing deepfake videos compared to baseline models while demanding fewer
computational resources.
- Abstract(参考訳): ディープフェイクビデオはAIのフェイスウォーピング技術によって生成され、強力な偽造攻撃の可能性からかなりの注目を集めている。
既存の研究は、主に実物と偽物の区別のためのバイナリ分類に焦点を当てているが、偽の動画の特定の生成モデルを決定することは、法医学的な調査には不可欠である。
本稿では,様々なオートエンコーダモデルから派生した,最近提案されたデータセットDeepfakes from Different Models (DFDM) のDeepfakeビデオのモデル属性問題について検討する。
データセットは、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの異なるモデルによって生成された6,450のDeepfakeビデオからなる。
本研究では,VGG19のセグメントを特徴抽出バックボーンとして提案する多クラス分類タスクとしてDeepfakesモデル属性を定式化した。
カプセルモジュールは、ディープフェイク属性のロバストな識別のための特徴のうち複雑な階層をキャプチャする。
さらに、ビデオレベルの融合技術は、連続した特徴ベクトルを扱うために時間的注意機構を利用し、ディープフェイクビデオに固有の時間的依存性を生かしている。
フレームにまたがる洞察を集約することで、私たちのモデルはビデオコンテンツの包括的理解を獲得し、より正確な予測を可能にします。
deepfake benchmark dataset (dfdm) における実験結果は,提案手法の有効性を実証し,計算資源の少ないベースラインモデルと比較して,deepfakeビデオの精度を最大4%向上させた。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Video Infringement Detection via Feature Disentanglement and Mutual
Information Maximization [51.206398602941405]
本稿では,元の高次元特徴を複数のサブ機能に分解することを提案する。
歪んだサブ機能の上に,サブ機能を強化する補助的特徴を学習する。
提案手法は,大規模SVDデータセット上で90.1%のTOP-100 mAPを達成し,VCSLベンチマークデータセット上で新たな最先端を設定できる。
論文 参考訳(メタデータ) (2023-09-13T10:53:12Z) - Quality-Agnostic Deepfake Detection with Intra-model Collaborative
Learning [26.517887637150594]
Deepfakeは最近、セキュリティ上の脅威と偽情報の拡散に関して、多くの社会的懸念を提起した。
多くのSOTAアプローチは、特定のディープフェイクビデオ品質タイプを検出するために単一の特定モデルを使用することによって制限される。
本研究では,異なる品質のディープフェイクを効果的かつ同時検出できる汎用的なモデル内協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-12T02:01:31Z) - Deepfake Video Detection Using Generative Convolutional Vision
Transformer [3.8297637120486496]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - A Hybrid CNN-LSTM model for Video Deepfake Detection by Leveraging
Optical Flow Features [0.0]
ディープフェイク(Deepfakes)は、デジタルメディアの合成で、超リアルなフェイクビデオを作り、観客を騙す。
本稿では,光学フローに基づく特徴抽出手法を用いて時間的特徴を抽出し,分類のためのハイブリッドモデルに供給する。
このハイブリッドモデルは、DFDC、FF++、Celeb-DFといったオープンソースのデータセットに効果的なパフォーマンスを提供する。
論文 参考訳(メタデータ) (2022-07-28T09:38:09Z) - Revisiting Classifier: Transferring Vision-Language Models for Video
Recognition [102.93524173258487]
ダウンストリームタスクのためのタスク非依存の深層モデルから知識を伝達することは、コンピュータビジョン研究において重要なトピックである。
本研究では,映像分類作業における知識の伝達に着目した。
予測された言語モデルを用いて、効率的な翻訳学習のための適切なセマンティックターゲットを生成する。
論文 参考訳(メタデータ) (2022-07-04T10:00:47Z) - The Effectiveness of Temporal Dependency in Deepfake Video Detection [0.0]
本稿では,時間的情報によって深層学習モデルの深部学習性能が向上するかどうかを検討する。
その結果,時間依存性は実画像の分類において統計的に顕著な増加をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-05-13T14:39:25Z) - Model Attribution of Face-swap Deepfake Videos [39.771800841412414]
まず、いくつかのAutoencoderモデルに基づいて、DeepFakes from Different Models (DFDM)を用いた新しいデータセットを導入する。
具体的には、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの世代モデルを用いて、合計6450のDeepfakeビデオを生成する。
我々は,Deepfakesモデルの属性を多クラス分類タスクとして捉え,Deepfakes間の差異を探索するための空間的・時間的注意に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T20:05:18Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。