論文の概要: Exploring Temporal Coherence for More General Video Face Forgery
Detection
- arxiv url: http://arxiv.org/abs/2108.06693v1
- Date: Sun, 15 Aug 2021 08:45:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-17 15:10:44.925231
- Title: Exploring Temporal Coherence for More General Video Face Forgery
Detection
- Title(参考訳): より一般的なビデオ顔偽造検出のための時間的コヒーレンス探索
- Authors: Yinglin Zheng, Jianmin Bao, Dong Chen, Ming Zeng, Fang Wen
- Abstract要約: 本稿では,2つの主要な段階からなる新しいエンドツーエンドフレームワークを提案する。
第1段階は、時間的畳み込みネットワーク(FTCN)であり、時間的畳み込みカーネルのサイズは変化しない。
第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
- 参考スコア(独自算出の注目度): 22.003901822221227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although current face manipulation techniques achieve impressive performance
regarding quality and controllability, they are struggling to generate temporal
coherent face videos. In this work, we explore to take full advantage of the
temporal coherence for video face forgery detection. To achieve this, we
propose a novel end-to-end framework, which consists of two major stages. The
first stage is a fully temporal convolution network (FTCN). The key insight of
FTCN is to reduce the spatial convolution kernel size to 1, while maintaining
the temporal convolution kernel size unchanged. We surprisingly find this
special design can benefit the model for extracting the temporal features as
well as improve the generalization capability. The second stage is a Temporal
Transformer network, which aims to explore the long-term temporal coherence.
The proposed framework is general and flexible, which can be directly trained
from scratch without any pre-training models or external datasets. Extensive
experiments show that our framework outperforms existing methods and remains
effective when applied to detect new sorts of face forgery videos.
- Abstract(参考訳): 現在の顔操作技術は、品質と制御性に関する印象的なパフォーマンスを実現するが、時間的コヒーレントな顔ビデオを生成するのに苦労している。
本研究では,映像顔偽造検出における時間的コヒーレンスをフル活用することを検討する。
そこで本研究では,2つの段階からなる新しいエンドツーエンドフレームワークを提案する。
最初の段階は完全な時間的畳み込みネットワーク(FTCN)である。
FTCNの重要な洞察は、空間的畳み込みカーネルのサイズを1に減らし、時間的畳み込みカーネルのサイズを一定に保つことである。
この特別な設計は、時間的特徴を抽出し、一般化能力を向上するモデルに有用である。
第2段階はテンポラルトランスフォーマーネットワークであり、長期の時間的コヒーレンスを探求することを目的としている。
提案されたフレームワークは汎用的で柔軟性があり、事前トレーニングモデルや外部データセットなしで、スクラッチから直接トレーニングすることができる。
広範な実験により,提案手法は既存手法よりも優れており,新たな顔偽ビデオの検出にも有効であることが示された。
関連論文リスト
- Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - D$^2$ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition [60.84084172829169]
大規模な事前訓練された画像モデルに数発のアクション認識を適用することは、ロバストな特徴抽出器を学習するための効果的な戦略であることが証明されている。
D$2$ST-Adapter (Disentangled-and-Deformable Spatio-Temporal Adapter) は,アクション認識に適した新しいチューニングフレームワークである。
論文 参考訳(メタデータ) (2023-12-03T15:40:10Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Convolutional Transformer based Dual Discriminator Generative
Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。
これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文 参考訳(メタデータ) (2021-07-29T03:07:25Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。