論文の概要: Combining EfficientNet and Vision Transformers for Video Deepfake
Detection
- arxiv url: http://arxiv.org/abs/2107.02612v1
- Date: Tue, 6 Jul 2021 13:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 13:45:48.540998
- Title: Combining EfficientNet and Vision Transformers for Video Deepfake
Detection
- Title(参考訳): ビデオディープフェイク検出のための高効率ネットと視覚トランスフォーマの複合化
- Authors: Davide Coccomini, Nicola Messina, Claudio Gennaro and Fabrizio Falchi
- Abstract要約: ディープフェイク(Deepfakes)は、視聴者を騙すために信頼できるビデオを取得するためのデジタル操作の結果である。
本研究では,様々なタイプの視覚変換器と,特徴抽出器として使用される畳み込み効率ネットB0を組み合わせる。
最も優れたモデルはAUC 0.951とF1スコア88.0%を達成し、DeepFake Detection Challenge (DFDC) の最先端に非常に近い。
- 参考スコア(独自算出の注目度): 6.365889364810238
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deepfakes are the result of digital manipulation to obtain credible videos in
order to deceive the viewer. This is done through deep learning techniques
based on autoencoders or GANs that become more accessible and accurate year
after year, resulting in fake videos that are very difficult to distinguish
from real ones. Traditionally, CNN networks have been used to perform deepfake
detection, with the best results obtained using methods based on EfficientNet
B7. In this study, we combine various types of Vision Transformers with a
convolutional EfficientNet B0 used as a feature extractor, obtaining comparable
results with some very recent methods that use Vision Transformers. Differently
from the state-of-the-art approaches, we use neither distillation nor ensemble
methods. The best model achieved an AUC of 0.951 and an F1 score of 88.0%, very
close to the state-of-the-art on the DeepFake Detection Challenge (DFDC).
- Abstract(参考訳): ディープフェイクは、視聴者をだますために信頼できるビデオを得るためのデジタル操作の結果である。
これは、オートエンコーダやganに基づくディープラーニング技術によって、毎年よりアクセスしやすく正確になるため、実際のビデオと区別するのが非常に難しいフェイクビデオによって行われる。
伝統的にcnnネットワークはディープフェイク検出に使われており、最も良い結果が efficientnet b7 に基づいた手法で得られた。
本研究では,様々な種類の視覚変換器と特徴抽出器として使用される畳み込み効率ネットB0を組み合わせて,視覚変換器を用いた最近の手法と同等の結果を得る。
最先端のアプローチとは異なり、蒸留法もアンサンブル法も使用しない。
最高のモデルはAUC 0.951とF1スコア88.0%を達成し、DeepFake Detection Challenge (DFDC) の最先端に非常に近い。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - Unmasking Deepfake Faces from Videos Using An Explainable Cost-Sensitive
Deep Learning Approach [0.0]
ディープフェイク技術は広く使われており、デジタルメディアの信頼性に関する深刻な懸念につながっている。
本研究は,映像中のディープフェイク顔を効果的に検出するために,リソース効率が高く透明なコスト感受性深層学習法を用いている。
論文 参考訳(メタデータ) (2023-12-17T14:57:10Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Deepfake Video Detection Using Generative Convolutional Vision
Transformer [3.8297637120486496]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - Deepfake Detection Scheme Based on Vision Transformer and Distillation [4.716110829725784]
偽ビデオ検出のための蒸留法を用いたVision Transformerモデルを提案する。
提案手法は,CNN機能の組み合わせにより,入力としてのパッチ埋め込みが最先端であることを確認した。
論文 参考訳(メタデータ) (2021-04-03T09:13:05Z) - Deepfake Video Detection Using Convolutional Vision Transformer [0.0]
ディープラーニング技術は、Deepfakesとして知られる超現実的なビデオを生成し合成することができる。
Deepfakesは、アイデンティティの盗難、フィッシング、詐欺などの有害な目的のために使用された場合、すべての人に光る脅威をもたらします。
本稿では,Deepfakes検出のためのConvolutional Vision Transformerを提案する。
論文 参考訳(メタデータ) (2021-02-22T15:56:05Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。