Fugu-MT 論文翻訳(概要): Self-Supervised Transformer with Domain Adaptive Reconstruction for General Face Forgery Video Detection

論文の概要: Self-Supervised Transformer with Domain Adaptive Reconstruction for General Face Forgery Video Detection

arxiv url: http://arxiv.org/abs/2309.04795v1
Date: Sat, 9 Sep 2023 13:40:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 16:17:02.412686
Title: Self-Supervised Transformer with Domain Adaptive Reconstruction for General Face Forgery Video Detection
Title（参考訳）: 汎用顔偽ビデオ検出のためのドメイン適応再構成を用いた自己監督変換器
Authors: Daichi Zhang, Zihao Xiao, Jianmin Li, Shiming Ge
Abstract要約: コントラスト・リコンストラクション学習(CoReST)と協調する自己教師型トランスフォーマーを提案する。コントラスト学習と再構成学習を組み合わせた2つの補助的タスクは、表現学習を強化するように設計されている。提案手法は,最先端の教師付きコンペティタよりも優れた性能を示す。
参考スコア（独自算出の注目度）: 24.619102747582456
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Face forgery videos have caused severe social public concern, and various detectors have been proposed recently. However, most of them are trained in a supervised manner with limited generalization when detecting videos from different forgery methods or real source videos. To tackle this issue, we explore to take full advantage of the difference between real and forgery videos by only exploring the common representation of real face videos. In this paper, a Self-supervised Transformer cooperating with Contrastive and Reconstruction learning (CoReST) is proposed, which is first pre-trained only on real face videos in a self-supervised manner, and then fine-tuned a linear head on specific face forgery video datasets. Two specific auxiliary tasks incorporated contrastive and reconstruction learning are designed to enhance the representation learning. Furthermore, a Domain Adaptive Reconstruction (DAR) module is introduced to bridge the gap between different forgery domains by reconstructing on unlabeled target videos when fine-tuning. Extensive experiments on public datasets demonstrate that our proposed method performs even better than the state-of-the-art supervised competitors with impressive generalization.
Abstract（参考訳）: 顔の偽造ビデオは社会の深刻な懸念を招き、様々な検出器が最近提案されている。しかし、それらの多くは、異なる偽造法や実映像からビデオを検出する際に、限定的な一般化で教師付きで訓練されている。この問題に取り組むため,我々は,実写ビデオと偽写ビデオの違いを最大限に活用するために,実写ビデオの共通表現のみを探索する。本稿では,実顔映像にのみ自己教師あり方式で事前学習し,特定の顔偽造映像データセットに線形頭部を微調整した自己教師ありトランスフォーマ(corest)を提案する。コントラスト学習と再構成学習を組み込んだ2つの補助タスクは、表現学習を強化するために設計されている。さらに、細調整時に未ラベルのターゲットビデオに再構成することで、異なる偽ドメイン間のギャップを埋めるために、ドメイン適応再構築(DAR)モジュールを導入する。公開データセットに対する大規模な実験により,提案手法は最先端の教師付き競争相手よりも優れた性能を示した。

関連論文リスト

Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
Learning Natural Consistency Representation for Face Forgery Video Detection [23.53549629885891]
本研究では,自然表現(NACO)の実写映像を自己監督的に学習することを提案する。我々の手法は、他の最先端の手法よりも優れたロバスト性を持つ。
論文参考訳（メタデータ） (2024-07-15T09:00:02Z)
Dynamic Erasing Network Based on Multi-Scale Temporal Features for Weakly Supervised Video Anomaly Detection [103.92970668001277]
弱教師付きビデオ異常検出のための動的消去ネットワーク(DE-Net)を提案する。まず,異なる長さのセグメントから特徴を抽出できるマルチスケール時間モデリングモジュールを提案する。そして,検出された異常の完全性を動的に評価する動的消去戦略を設計する。
論文参考訳（メタデータ） (2023-12-04T09:40:11Z)
AltFreezing for More General Video Face Forgery Detection [138.5732617371004]
顔偽造検出のための1つのモデルにおいて,空間的および見えない時間的アーティファクトの両方をキャプチャすることを提案する。より一般的な顔偽造検出のためのAltFreezingと呼ばれる新しいトレーニング戦略を提案する。
論文参考訳（メタデータ） (2023-07-17T08:24:58Z)
Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption [94.5031244215761]
本稿では,実際のビデオにない「規則性破壊」を識別することで,ディープフェイク検出の一般化を促進することを提案する。具体的には、空間的・時間的特性を慎重に調べることで、擬似フェイク発生器による実映像の破壊を提案する。このような手法により,フェイクビデオを使わずにディープフェイク検出が可能となり,よりシンプルかつ効率的に一般化能力を向上させることができる。
論文参考訳（メタデータ） (2022-07-21T10:42:34Z)
Video Salient Object Detection via Contrastive Features and Attention Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文参考訳（メタデータ） (2021-11-03T17:40:32Z)
Convolutional Transformer based Dual Discriminator Generative Adversarial Networks for Video Anomaly Detection [27.433162897608543]
本稿では,CT-D2GAN(Conversaal Transformer based Dual Discriminator Generative Adrial Networks)を提案する。これには、入力クリップの空間情報をキャプチャする畳み込みエンコーダ(convolutional encoder)と、時間的ダイナミクスをエンコードして将来のフレームを予測する時間的自己アテンションモジュール(temporal self-attention module)という3つのキーコンポーネントが含まれている。
論文参考訳（メタデータ） (2021-07-29T03:07:25Z)
Over-the-Air Adversarial Flickering Attacks against Video Recognition Networks [54.82488484053263]
ビデオ分類のためのディープニューラルネットワークは、敵の操作を受けることができる。本稿では,フリックング時間摂動を導入することで,ビデオ分類器を騙す操作手法を提案する。攻撃はいくつかの標的モデルに実装され、攻撃の伝達性が実証された。
論文参考訳（メタデータ） (2020-02-12T17:58:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。