Fugu-MT 論文翻訳(概要): Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for Enhanced Video Forgery Detection

論文の概要: Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for Enhanced Video Forgery Detection

arxiv url: http://arxiv.org/abs/2306.06881v2
Date: Fri, 9 Feb 2024 12:25:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 20:53:35.849036
Title: Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for Enhanced Video Forgery Detection
Title（参考訳）: unmasking deepfakes: ビデオ偽造検出のためのマスク付き時空間トランスフォーマー
Authors: Sayantan Das, Mojtaba Kolahdouzi, Levent \"Ozparlak, Will Hickie, Ali Etemad
Abstract要約: 本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
参考スコア（独自算出の注目度）: 19.432851794777754
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a novel approach for the detection of deepfake videos using a pair of vision transformers pre-trained by a self-supervised masked autoencoding setup. Our method consists of two distinct components, one of which focuses on learning spatial information from individual RGB frames of the video, while the other learns temporal consistency information from optical flow fields generated from consecutive frames. Unlike most approaches where pre-training is performed on a generic large corpus of images, we show that by pre-training on smaller face-related datasets, namely Celeb-A (for the spatial learning component) and YouTube Faces (for the temporal learning component), strong results can be obtained. We perform various experiments to evaluate the performance of our method on commonly used datasets namely FaceForensics++ (Low Quality and High Quality, along with a new highly compressed version named Very Low Quality) and Celeb-DFv2 datasets. Our experiments show that our method sets a new state-of-the-art on FaceForensics++ (LQ, HQ, and VLQ), and obtains competitive results on Celeb-DFv2. Moreover, our method outperforms other methods in the area in a cross-dataset setup where we fine-tune our model on FaceForensics++ and test on CelebDFv2, pointing to its strong cross-dataset generalization ability.
Abstract（参考訳）: 本稿では,自己教師付きマスク型自動符号化装置で事前学習した視覚トランスフォーマを用いて,ディープフェイク映像の検出手法を提案する。本手法は,ビデオの個々のrgbフレームから空間情報を学習することに焦点を当てた2つの異なるコンポーネントと,連続するフレームから生成された光流場から時間的一貫性情報を学習する。一般的な大規模画像コーパス上で事前学習を行うほとんどのアプローチとは異なり、celeb-a(空間学習コンポーネント)とyoutube faces(時間学習コンポーネント)という、より小さな顔関連データセットを事前学習することで、強い結果が得られる。提案手法は,faceforensics++(低品質,高品質,高圧縮版,超低品質)やceleb-dfv2データセットなど,一般的なデータセットでの性能評価を行うため,様々な実験を行った。提案手法は,FaceForensics++ (LQ,HQ,VLQ) に新たな最先端性を設定し,Celeb-DFv2 上での競合結果を得る。さらに、我々はFaceForensics++でモデルを微調整し、CelebDFv2でテストし、その強力なクロスデータセットの一般化能力を示すクロスデータセット設定において、この分野の他のメソッドよりも優れています。

関連論文リスト

Video Joint-Embedding Predictive Architectures for Facial Expression Recognition [10.013822837398044]
本稿では,映像統合型予測アーキテクチャ(V-JEPA)の顔表情認識(FER)への応用について紹介する。 V-JEPAは、マスキング領域の埋め込みからマスクされた領域の埋め込みを予測することによって学習する。我々は、RAVDESSとCREMA-Dデータセットを使用して浅い分類器を訓練し、RAVDESSの最先端性能を達成し、CREMA-Dの他の視覚ベースの手法よりも優れた性能を発揮する。
論文参考訳（メタデータ） (2026-01-14T14:48:11Z)
Video Decomposition Prior: A Methodology to Decompose Videos into Layers [74.36790196133505]
本稿では,プロのビデオ編集の実践からインスピレーションを得た,VDP以前の新しいビデオ分解手法を提案する。 VDPフレームワークは、ビデオシーケンスを複数のRGBレイヤと関連する不透明度レベルに分解する。ビデオオブジェクトのセグメンテーション、デハジング、リライティングといったタスクに対処する。
論文参考訳（メタデータ） (2024-12-06T10:35:45Z)
Pre-training for Action Recognition with Automatically Generated Fractal Datasets [23.686476742398973]
本稿では,短い合成ビデオクリップの大規模データセットを自動生成する手法を提案する。生成されたビデオクリップは、複雑なマルチスケール構造を生成するフラクタルの自然能力に起因した顕著な多様性によって特徴づけられる。通常のKineeticsの事前トレーニングと比較すると、報告結果が近くなり、下流のデータセットよりも優れています。
論文参考訳（メタデータ） (2024-11-26T16:51:11Z)
UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文参考訳（メタデータ） (2024-07-26T20:51:54Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Weakly Supervised Two-Stage Training Scheme for Deep Video Fight Detection Model [0.0]
ビデオにおけるファイト検出は、今日の監視システムとストリーミングメディアの普及にともなう、新たなディープラーニングアプリケーションである。これまでの研究は、この問題に対処するための行動認識技術に大きく依存していた。本研究では,動作認識特徴抽出器と異常スコア生成器の合成として,戦闘検出モデルを設計する。
論文参考訳（メタデータ） (2022-09-23T08:29:16Z)
Differentiable Frequency-based Disentanglement for Aerial Video Action Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文参考訳（メタデータ） (2022-09-15T22:16:52Z)
Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文参考訳（メタデータ） (2022-09-12T15:05:41Z)
Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文参考訳（メタデータ） (2022-03-24T16:38:54Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)
Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。 1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文参考訳（メタデータ） (2020-08-08T01:38:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。