論文の概要: Self-Supervised Transformer with Domain Adaptive Reconstruction for
General Face Forgery Video Detection
- arxiv url: http://arxiv.org/abs/2309.04795v1
- Date: Sat, 9 Sep 2023 13:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 16:17:02.412686
- Title: Self-Supervised Transformer with Domain Adaptive Reconstruction for
General Face Forgery Video Detection
- Title(参考訳): 汎用顔偽ビデオ検出のためのドメイン適応再構成を用いた自己監督変換器
- Authors: Daichi Zhang, Zihao Xiao, Jianmin Li, Shiming Ge
- Abstract要約: コントラスト・リコンストラクション学習(CoReST)と協調する自己教師型トランスフォーマーを提案する。
コントラスト学習と再構成学習を組み合わせた2つの補助的タスクは、表現学習を強化するように設計されている。
提案手法は,最先端の教師付きコンペティタよりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 24.619102747582456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face forgery videos have caused severe social public concern, and various
detectors have been proposed recently. However, most of them are trained in a
supervised manner with limited generalization when detecting videos from
different forgery methods or real source videos. To tackle this issue, we
explore to take full advantage of the difference between real and forgery
videos by only exploring the common representation of real face videos. In this
paper, a Self-supervised Transformer cooperating with Contrastive and
Reconstruction learning (CoReST) is proposed, which is first pre-trained only
on real face videos in a self-supervised manner, and then fine-tuned a linear
head on specific face forgery video datasets. Two specific auxiliary tasks
incorporated contrastive and reconstruction learning are designed to enhance
the representation learning. Furthermore, a Domain Adaptive Reconstruction
(DAR) module is introduced to bridge the gap between different forgery domains
by reconstructing on unlabeled target videos when fine-tuning. Extensive
experiments on public datasets demonstrate that our proposed method performs
even better than the state-of-the-art supervised competitors with impressive
generalization.
- Abstract(参考訳): 顔の偽造ビデオは社会の深刻な懸念を招き、様々な検出器が最近提案されている。
しかし、それらの多くは、異なる偽造法や実映像からビデオを検出する際に、限定的な一般化で教師付きで訓練されている。
この問題に取り組むため,我々は,実写ビデオと偽写ビデオの違いを最大限に活用するために,実写ビデオの共通表現のみを探索する。
本稿では,実顔映像にのみ自己教師あり方式で事前学習し,特定の顔偽造映像データセットに線形頭部を微調整した自己教師ありトランスフォーマ(corest)を提案する。
コントラスト学習と再構成学習を組み込んだ2つの補助タスクは、表現学習を強化するために設計されている。
さらに、細調整時に未ラベルのターゲットビデオに再構成することで、異なる偽ドメイン間のギャップを埋めるために、ドメイン適応再構築(DAR)モジュールを導入する。
公開データセットに対する大規模な実験により,提案手法は最先端の教師付き競争相手よりも優れた性能を示した。
関連論文リスト
- Multi-Contextual Predictions with Vision Transformer for Video Anomaly
Detection [22.098399083491937]
ビデオの時間的文脈を理解することは、異常検出において重要な役割を果たす。
我々は3つの異なる文脈予測ストリームを持つトランスモデルを設計する。
連続する正常フレームの欠落フレームの予測を学習することにより、ビデオ内の様々な正常パターンを効果的に学習することができる。
論文 参考訳(メタデータ) (2022-06-17T05:54:31Z) - Self-supervised Video-centralised Transformer for Video Face Clustering [58.12996668434134]
本稿では,ビデオ集中型トランスを用いたビデオの顔クラスタリング手法を提案する。
我々はEasyCom-Clusteringという名前の大規模なビデオ顔クラスタリングデータセットを初めてリリースした。
論文 参考訳(メタデータ) (2022-03-24T16:38:54Z) - Leveraging Real Talking Faces via Self-Supervision for Robust Forgery
Detection [112.96004727646115]
本研究では,実話を用いた顔操作映像の検出手法を開発した。
本手法は, クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現する。
以上の結果から、より堅牢な顔偽造検知器の開発には、自然ビデオと未表示ビデオの活用が有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2022-01-18T17:14:54Z) - Unsupervised Domain Adaptation for Video Semantic Segmentation [91.30558794056054]
セマンティックセグメンテーションのための教師なしドメイン適応は、シミュレーションからリアルに知識を伝達できるため、大きな人気を集めている。
本研究では,ビデオセマンティック・アプローチのための教師なし領域適応という,このタスクの新たなビデオ拡張について述べる。
提案手法は,画像レベル (mIoU) と映像レベル (VPQ) の両方において,従来の画像ベースUDA手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-07-23T07:18:20Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Overcomplete Representations Against Adversarial Videos [72.04912755926524]
敵対ビデオ(OUDefend)に対する防御のための新しいオーバー・アンド・アンダー完全修復ネットワークを提案します。
OUDefendは、これらの2つの表現を学習することで、ローカル機能とグローバル機能のバランスをとるように設計されている。
実験の結果,画像に焦点をあてた防御はビデオに効果がない可能性があるが,oudefendは異なるタイプの敵ビデオに対して頑健性を高める。
論文 参考訳(メタデータ) (2020-12-08T08:00:17Z) - ID-Reveal: Identity-aware DeepFake Video Detection [24.79483180234883]
ID-Reveal(ID-Reveal)は、時間的顔の特徴を学習する新しいアプローチだ。
偽物のトレーニングデータは必要ありませんが、実際のビデオでトレーニングするだけです。
高圧縮映像における顔再現の精度は平均15%以上向上した。
論文 参考訳(メタデータ) (2020-12-04T10:43:16Z) - Red Carpet to Fight Club: Partially-supervised Domain Transfer for Face
Recognition in Violent Videos [12.534785814117065]
種々の有害条件下でのクロスドメイン認識を研究するために,WildestFacesデータセットを導入した。
我々は、このクリーンで暴力的な認識タスクのための厳密な評価プロトコルを確立し、提案したデータセットと方法の詳細な分析を示す。
論文 参考訳(メタデータ) (2020-09-16T09:45:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。