論文の概要: Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection
- arxiv url: http://arxiv.org/abs/2306.06881v2
- Date: Fri, 9 Feb 2024 12:25:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 20:53:35.849036
- Title: Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection
- Title(参考訳): unmasking deepfakes: ビデオ偽造検出のためのマスク付き時空間トランスフォーマー
- Authors: Sayantan Das, Mojtaba Kolahdouzi, Levent \"Ozparlak, Will Hickie, Ali
Etemad
- Abstract要約: 本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
- 参考スコア(独自算出の注目度): 19.432851794777754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach for the detection of deepfake videos using a pair
of vision transformers pre-trained by a self-supervised masked autoencoding
setup. Our method consists of two distinct components, one of which focuses on
learning spatial information from individual RGB frames of the video, while the
other learns temporal consistency information from optical flow fields
generated from consecutive frames. Unlike most approaches where pre-training is
performed on a generic large corpus of images, we show that by pre-training on
smaller face-related datasets, namely Celeb-A (for the spatial learning
component) and YouTube Faces (for the temporal learning component), strong
results can be obtained. We perform various experiments to evaluate the
performance of our method on commonly used datasets namely FaceForensics++ (Low
Quality and High Quality, along with a new highly compressed version named Very
Low Quality) and Celeb-DFv2 datasets. Our experiments show that our method sets
a new state-of-the-art on FaceForensics++ (LQ, HQ, and VLQ), and obtains
competitive results on Celeb-DFv2. Moreover, our method outperforms other
methods in the area in a cross-dataset setup where we fine-tune our model on
FaceForensics++ and test on CelebDFv2, pointing to its strong cross-dataset
generalization ability.
- Abstract(参考訳): 本稿では,自己教師付きマスク型自動符号化装置で事前学習した視覚トランスフォーマを用いて,ディープフェイク映像の検出手法を提案する。
本手法は,ビデオの個々のrgbフレームから空間情報を学習することに焦点を当てた2つの異なるコンポーネントと,連続するフレームから生成された光流場から時間的一貫性情報を学習する。
一般的な大規模画像コーパス上で事前学習を行うほとんどのアプローチとは異なり、celeb-a(空間学習コンポーネント)とyoutube faces(時間学習コンポーネント)という、より小さな顔関連データセットを事前学習することで、強い結果が得られる。
提案手法は,faceforensics++(低品質,高品質,高圧縮版,超低品質)やceleb-dfv2データセットなど,一般的なデータセットでの性能評価を行うため,様々な実験を行った。
提案手法は,FaceForensics++ (LQ,HQ,VLQ) に新たな最先端性を設定し,Celeb-DFv2 上での競合結果を得る。
さらに、我々はFaceForensics++でモデルを微調整し、CelebDFv2でテストし、その強力なクロスデータセットの一般化能力を示すクロスデータセット設定において、この分野の他のメソッドよりも優れています。
関連論文リスト
- Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Weakly Supervised Two-Stage Training Scheme for Deep Video Fight
Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。
これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。
本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文 参考訳(メタデータ) (2022-09-23T08:29:16Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。