論文の概要: Exploring Temporal Coherence for More General Video Face Forgery
Detection
- arxiv url: http://arxiv.org/abs/2108.06693v1
- Date: Sun, 15 Aug 2021 08:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:10:44.925231
- Title: Exploring Temporal Coherence for More General Video Face Forgery
Detection
- Title(参考訳): より一般的なビデオ顔偽造検出のための時間的コヒーレンス探索
- Authors: Yinglin Zheng, Jianmin Bao, Dong Chen, Ming Zeng, Fang Wen
- Abstract要約: 本稿では,2つの主要な段階からなる新しいエンドツーエンドフレームワークを提案する。
第1段階は、時間的畳み込みネットワーク(FTCN)であり、時間的畳み込みカーネルのサイズは変化しない。
第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
- 参考スコア(独自算出の注目度): 22.003901822221227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although current face manipulation techniques achieve impressive performance
regarding quality and controllability, they are struggling to generate temporal
coherent face videos. In this work, we explore to take full advantage of the
temporal coherence for video face forgery detection. To achieve this, we
propose a novel end-to-end framework, which consists of two major stages. The
first stage is a fully temporal convolution network (FTCN). The key insight of
FTCN is to reduce the spatial convolution kernel size to 1, while maintaining
the temporal convolution kernel size unchanged. We surprisingly find this
special design can benefit the model for extracting the temporal features as
well as improve the generalization capability. The second stage is a Temporal
Transformer network, which aims to explore the long-term temporal coherence.
The proposed framework is general and flexible, which can be directly trained
from scratch without any pre-training models or external datasets. Extensive
experiments show that our framework outperforms existing methods and remains
effective when applied to detect new sorts of face forgery videos.
- Abstract(参考訳): 現在の顔操作技術は、品質と制御性に関する印象的なパフォーマンスを実現するが、時間的コヒーレントな顔ビデオを生成するのに苦労している。
本研究では,映像顔偽造検出における時間的コヒーレンスをフル活用することを検討する。
そこで本研究では,2つの段階からなる新しいエンドツーエンドフレームワークを提案する。
最初の段階は完全な時間的畳み込みネットワーク(FTCN)である。
FTCNの重要な洞察は、空間的畳み込みカーネルのサイズを1に減らし、時間的畳み込みカーネルのサイズを一定に保つことである。
この特別な設計は、時間的特徴を抽出し、一般化能力を向上するモデルに有用である。
第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
提案されたフレームワークは汎用的で柔軟性があり、事前トレーニングモデルや外部データセットなしで、スクラッチから直接トレーニングすることができる。
広範な実験により,提案手法は既存手法よりも優れており,新たな顔偽ビデオの検出にも有効であることが示された。
関連論文リスト
- UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [60.84084172829169]
大規模な事前訓練された画像モデルに数発のアクション認識を適用することは、ロバストな特徴抽出器を学習するための効果的な戦略であることが証明されている。
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter) は,アクション認識に適した新しいチューニングフレームワークである。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Latent Spatiotemporal Adaptation for Generalized Face Forgery Video Detection [22.536129731902783]
顔画像の一般的な検出を容易にするためのLatemporal Spatio(LAST)アプローチを提案する。
まず、各フレームの局所的な空間的特徴を抽出するために、軽量CNNを組み込むことで、ビデオの時間的パターンをモデル化する。
次に、静止空間ビデオの長期的表現を学習し、画素空間よりも多くの手がかりを含むべきである。
論文 参考訳(メタデータ) (2023-09-09T13:40:44Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。