論文の概要: Deepfake Detection Scheme Based on Vision Transformer and Distillation
- arxiv url: http://arxiv.org/abs/2104.01353v1
- Date: Sat, 3 Apr 2021 09:13:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:54:30.668434
- Title: Deepfake Detection Scheme Based on Vision Transformer and Distillation
- Title(参考訳): 視覚変換器と蒸留に基づくディープフェイク検出方式
- Authors: Young-Jin Heo, Young-Ju Choi, Young-Woon Lee, Byung-Gyu Kim
- Abstract要約: 偽ビデオ検出のための蒸留法を用いたVision Transformerモデルを提案する。
提案手法は,CNN機能の組み合わせにより,入力としてのパッチ埋め込みが最先端であることを確認した。
- 参考スコア(独自算出の注目度): 4.716110829725784
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfake is the manipulated video made with a generative deep learning
technique such as Generative Adversarial Networks (GANs) or Auto Encoder that
anyone can utilize. Recently, with the increase of Deepfake videos, some
classifiers consisting of the convolutional neural network that can distinguish
fake videos as well as deepfake datasets have been actively created. However,
the previous studies based on the CNN structure have the problem of not only
overfitting, but also considerable misjudging fake video as real ones. In this
paper, we propose a Vision Transformer model with distillation methodology for
detecting fake videos. We design that a CNN features and patch-based
positioning model learns to interact with all positions to find the artifact
region for solving false negative problem. Through comparative analysis on
Deepfake Detection (DFDC) Dataset, we verify that the proposed scheme with
patch embedding as input outperforms the state-of-the-art using the combined
CNN features. Without ensemble technique, our model obtains 0.978 of AUC and
91.9 of f1 score, while previous SOTA model yields 0.972 of AUC and 90.6 of f1
score on the same condition.
- Abstract(参考訳): Deepfakeは、誰でも利用できるGAN(Generative Adversarial Networks)やAuto Encoderのような生成的なディープラーニング技術で作られた、操作されたビデオである。
近年、Deepfakeビデオの増加に伴い、フェイクビデオとディープフェイクデータセットを区別できる畳み込みニューラルネットワークからなる分類器が積極的に作成されている。
しかし、cnnの構造に基づく以前の研究は、過剰フィッティングだけでなく、偽のビデオを本物と誤認する問題も抱えていた。
本稿では,偽ビデオ検出のための蒸留手法を用いた視覚変換器モデルを提案する。
cnnの機能とパッチベースのポジショニングモデルがすべての位置と対話し、偽陰性問題を解決するアーティファクト領域を見つけることを学ぶように設計する。
ディープフェイク検出(dfdc)データセットの比較分析により,cnnの複合機能を用いて,入力としてパッチ埋め込み方式が最先端技術よりも優れていることを検証した。
アンサンブル技術がなければ,本モデルはAUCの0.978,f1の91.9,以前のSOTAモデルはAUCの0.972,f1の90.6を得る。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Deepfake Video Detection Using Generative Convolutional Vision
Transformer [3.8297637120486496]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - Model Attribution of Face-swap Deepfake Videos [39.771800841412414]
まず、いくつかのAutoencoderモデルに基づいて、DeepFakes from Different Models (DFDM)を用いた新しいデータセットを導入する。
具体的には、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの世代モデルを用いて、合計6450のDeepfakeビデオを生成する。
我々は,Deepfakesモデルの属性を多クラス分類タスクとして捉え,Deepfakes間の差異を探索するための空間的・時間的注意に基づく手法を提案する。
論文 参考訳(メタデータ) (2022-02-25T20:05:18Z) - Combining EfficientNet and Vision Transformers for Video Deepfake
Detection [6.365889364810238]
ディープフェイク(Deepfakes)は、視聴者を騙すために信頼できるビデオを取得するためのデジタル操作の結果である。
本研究では,様々なタイプの視覚変換器と,特徴抽出器として使用される畳み込み効率ネットB0を組み合わせる。
最も優れたモデルはAUC 0.951とF1スコア88.0%を達成し、DeepFake Detection Challenge (DFDC) の最先端に非常に近い。
論文 参考訳(メタデータ) (2021-07-06T13:35:11Z) - Deepfake Video Detection Using Convolutional Vision Transformer [0.0]
ディープラーニング技術は、Deepfakesとして知られる超現実的なビデオを生成し合成することができる。
Deepfakesは、アイデンティティの盗難、フィッシング、詐欺などの有害な目的のために使用された場合、すべての人に光る脅威をもたらします。
本稿では,Deepfakes検出のためのConvolutional Vision Transformerを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:56:05Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z) - Sharp Multiple Instance Learning for DeepFake Video Detection [54.12548421282696]
我々はDeepFakeビデオに、ビデオレベルのラベルのみを提供するが、フェイクビデオのすべての顔が操作されるわけではない部分的な顔攻撃という新しい問題を導入する。
インスタンス埋め込みからバッグ予測への直接マッピングを構築する鋭いMIL(S-MIL)を提案する。
FFPMSと広く使われているDFDCデータセットの実験により、S-MILは部分的に攻撃されたDeepFakeビデオ検出において他の手法よりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-08-11T08:52:17Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。