論文の概要: Deepfake Video Detection with Spatiotemporal Dropout Transformer
- arxiv url: http://arxiv.org/abs/2207.06612v1
- Date: Thu, 14 Jul 2022 02:04:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 12:34:42.394822
- Title: Deepfake Video Detection with Spatiotemporal Dropout Transformer
- Title(参考訳): 時空間ドロップアウトトランスを用いたディープフェイク映像検出
- Authors: Daichi Zhang, Fanzhao Lin, Yingying Hua, Pengju Wang, Dan Zeng,
Shiming Ge
- Abstract要約: 本稿では,ドロップアウトトランスによるディープフェイク映像の検出を容易にするための,単純かつ効果的なパッチレベルアプローチを提案する。
このアプローチでは、各入力ビデオがパッチの袋に再編成され、その後視覚変換器に送られ、堅牢な表現を実現する。
- 参考スコア(独自算出の注目度): 32.577096083927884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While the abuse of deepfake technology has caused serious concerns recently,
how to detect deepfake videos is still a challenge due to the high
photo-realistic synthesis of each frame. Existing image-level approaches often
focus on single frame and ignore the spatiotemporal cues hidden in deepfake
videos, resulting in poor generalization and robustness. The key of a
video-level detector is to fully exploit the spatiotemporal inconsistency
distributed in local facial regions across different frames in deepfake videos.
Inspired by that, this paper proposes a simple yet effective patch-level
approach to facilitate deepfake video detection via spatiotemporal dropout
transformer. The approach reorganizes each input video into bag of patches that
is then fed into a vision transformer to achieve robust representation.
Specifically, a spatiotemporal dropout operation is proposed to fully explore
patch-level spatiotemporal cues and serve as effective data augmentation to
further enhance model's robustness and generalization ability. The operation is
flexible and can be easily plugged into existing vision transformers. Extensive
experiments demonstrate the effectiveness of our approach against 25
state-of-the-arts with impressive robustness, generalizability, and
representation ability.
- Abstract(参考訳): ディープフェイク技術の悪用は近年深刻な懸念を招いているが、各フレームの高フォトリアリスティックな合成により、ディープフェイクビデオの検出方法が依然として課題となっている。
既存の画像レベルのアプローチは、しばしば単一のフレームに集中し、ディープフェイクビデオに隠された時空間的手がかりを無視する。
ビデオレベルの検出器の鍵は、ディープフェイクビデオで異なるフレームにまたがる局所的な顔領域に分布する時空間的不整合を完全に活用することである。
そこで,本稿では,時空間ドロップアウトトランスによるディープフェイク映像検出を容易にするパッチレベル手法を提案する。
このアプローチでは、各入力ビデオをパッチの袋に再編成し、視覚トランスフォーマーに供給することで堅牢な表現を実現している。
具体的には,パッチレベルの時空間的手がかりを十分に探究し,モデルのロバスト性と一般化能力をさらに高めるための効果的なデータ拡張を行う時空間的ドロップアウト操作を提案する。
操作は柔軟で、既存の視覚変換器に簡単に接続できる。
強靭性, 一般化性, 表現能力を有する25の最先端技術に対するアプローチの有効性を実証した。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - The Tug-of-War Between Deepfake Generation and Detection [4.62070292702111]
マルチモーダル生成モデルは急速に進化しており、現実的なビデオやオーディオの生成が急増している。
ディープフェイクビデオは、個人を説得力を持って偽造することができるが、悪用の可能性から特に注目を集めている。
本研究では,ディープフェイク映像の生成と検出の両面を考察し,効果的な対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-07-08T17:49:41Z) - GRACE: Graph-Regularized Attentive Convolutional Entanglement with Laplacian Smoothing for Robust DeepFake Video Detection [7.591187423217017]
本稿では,グラフラプラシアンを用いたグラフ畳み込みネットワークに基づく,堅牢なDeepFakeビデオ検出手法を提案する。
提案手法は,雑音の多い顔シーケンス下でのDeepFakeビデオ検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-06-28T14:17:16Z) - Compressed Deepfake Video Detection Based on 3D Spatiotemporal Trajectories [10.913345858983275]
悪意あるアクターによるディープフェイク技術は、国家、社会、個人に潜在的な脅威をもたらす。
本稿では,3次元動作特徴に基づくディープフェイク映像検出手法を提案する。
提案手法は良好な結果をもたらし,実用化の可能性を示す。
論文 参考訳(メタデータ) (2024-04-28T11:48:13Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Undercover Deepfakes: Detecting Fake Segments in Videos [1.2609216345578933]
ディープフェイク・ジェネレーションは ディープフェイクの新しいパラダイムだ ほとんどは 真実を歪めるために わずかに修正された 実際のビデオだ
本稿では,フレームとビデオレベルでディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。
特に、私たちが取り組むパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。
論文 参考訳(メタデータ) (2023-05-11T04:43:10Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption [94.5031244215761]
本稿では,実際のビデオにない「規則性破壊」を識別することで,ディープフェイク検出の一般化を促進することを提案する。
具体的には、空間的・時間的特性を慎重に調べることで、擬似フェイク発生器による実映像の破壊を提案する。
このような手法により,フェイクビデオを使わずにディープフェイク検出が可能となり,よりシンプルかつ効率的に一般化能力を向上させることができる。
論文 参考訳(メタデータ) (2022-07-21T10:42:34Z) - Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis [69.09526348527203]
ディープフェイク(Deepfakes)として知られる非常に現実的なメディアは、現実の目から人間の目まで区別できない。
本研究では,テスト画像を再合成し,検出のための視覚的手がかりを抽出する,新しい偽検出手法を提案する。
種々の検出シナリオにおいて,提案手法の摂動に対する有効性の向上,GANの一般化,堅牢性を示す。
論文 参考訳(メタデータ) (2021-05-29T21:22:24Z) - Sharp Multiple Instance Learning for DeepFake Video Detection [54.12548421282696]
我々はDeepFakeビデオに、ビデオレベルのラベルのみを提供するが、フェイクビデオのすべての顔が操作されるわけではない部分的な顔攻撃という新しい問題を導入する。
インスタンス埋め込みからバッグ予測への直接マッピングを構築する鋭いMIL(S-MIL)を提案する。
FFPMSと広く使われているDFDCデータセットの実験により、S-MILは部分的に攻撃されたDeepFakeビデオ検出において他の手法よりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-08-11T08:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。