論文の概要: Deepfake Video Detection Using Convolutional Vision Transformer
- arxiv url: http://arxiv.org/abs/2102.11126v1
- Date: Mon, 22 Feb 2021 15:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-24 01:37:03.589029
- Title: Deepfake Video Detection Using Convolutional Vision Transformer
- Title(参考訳): Convolutional Vision Transformerを用いたディープフェイク映像検出
- Authors: Deressa Wodajo, Solomon Atnafu
- Abstract要約: ディープラーニング技術は、Deepfakesとして知られる超現実的なビデオを生成し合成することができる。
Deepfakesは、アイデンティティの盗難、フィッシング、詐欺などの有害な目的のために使用された場合、すべての人に光る脅威をもたらします。
本稿では,Deepfakes検出のためのConvolutional Vision Transformerを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of deep learning models that can generate and synthesis
hyper-realistic videos known as Deepfakes and their ease of access to the
general public have raised concern from all concerned bodies to their possible
malicious intent use. Deep learning techniques can now generate faces, swap
faces between two subjects in a video, alter facial expressions, change gender,
and alter facial features, to list a few. These powerful video manipulation
methods have potential use in many fields. However, they also pose a looming
threat to everyone if used for harmful purposes such as identity theft,
phishing, and scam. In this work, we propose a Convolutional Vision Transformer
for the detection of Deepfakes. The Convolutional Vision Transformer has two
components: Convolutional Neural Network (CNN) and Vision Transformer (ViT).
The CNN extracts learnable features while the ViT takes in the learned features
as input and categorizes them using an attention mechanism. We trained our
model on the DeepFake Detection Challenge Dataset (DFDC) and have achieved 91.5
percent accuracy, an AUC value of 0.91, and a loss value of 0.32. Our
contribution is that we have added a CNN module to the ViT architecture and
have achieved a competitive result on the DFDC dataset.
- Abstract(参考訳): Deepfakesと呼ばれるハイパーリアルなビデオの生成と合成が可能なディープラーニングモデルの急速な進歩と、一般大衆へのアクセスの容易さは、すべての関係者から悪意のある意図の使用の可能性への懸念を引き起こしました。
深層学習技術は、顔を生成し、ビデオ内の2つの被験者の間で顔を交換したり、表情を変更したり、性別を変更したり、顔の特徴を変更したりすることができます。
これらの強力なビデオ操作法は多くの分野で潜在的に有用である。
しかし、身元を盗み、フィッシング、詐欺など、有害な目的に利用された場合、すべての人に脅かされる恐れもある。
本研究では,Deepfakes検出のためのConvolutional Vision Transformerを提案する。
Convolutional Vision Transformerには、Convolutional Neural Network (CNN) と Vision Transformer (ViT) の2つのコンポーネントがある。
CNNは学習可能な特徴を抽出し、ViTは学習した特徴を入力として取り込み、注意メカニズムを使用して分類します。
我々は、DeepFake Detection Challenge Dataset (DFDC)でモデルをトレーニングし、91.5パーセントの精度、AUC値0.91、損失値0.32を達成した。
私たちの貢献は、ViTアーキテクチャにCNNモジュールを追加し、DFDCデータセット上で競合的な結果を得たことです。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - Deepfake Video Detection Using Generative Convolutional Vision
Transformer [3.8297637120486496]
本稿では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。
我々のモデルは特徴抽出のためにConvNeXtとSwin Transformerモデルを組み合わせている。
GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2023-07-13T19:27:40Z) - Hybrid Transformer Network for Deepfake Detection [2.644723682054489]
本稿では,初期の特徴融合戦略を生かしたハイブリッドトランスネットワークを提案する。
提案モデルはFaceForensics++およびDFDCベンチマークで評価すると,他の高度な最先端手法と同等の結果が得られる。
また,顔の切り欠きの増大やランダムな切り欠きの増大も提案する。
論文 参考訳(メタデータ) (2022-08-11T13:30:42Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Copy Motion From One to Another: Fake Motion Video Generation [53.676020148034034]
人工知能の魅力的な応用は、任意の所望の動作を行う対象者のビデオを生成することである。
現在の手法では、通常、生成されたビデオの信頼性を評価するために、L2損失のGANを用いる。
本稿では,ポーズから前景画像へのマッピングの学習を容易にする理論的動機付け型Gromov-Wasserstein損失を提案する。
本手法は,人物の複雑な動きを忠実にコピーすることで,現実的な人物映像を生成できる。
論文 参考訳(メタデータ) (2022-05-03T08:45:22Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Video Transformer for Deepfake Detection with Incremental Learning [11.586926513803077]
ディープフェイクによる顔の偽造はインターネットに広く浸透しており、これが深刻な社会的懸念を引き起こす。
本稿では,ディープフェイクビデオを検出するためのインクリメンタル学習を備えた新しいビデオトランスフォーマーを提案する。
論文 参考訳(メタデータ) (2021-08-11T16:22:56Z) - Combining EfficientNet and Vision Transformers for Video Deepfake
Detection [6.365889364810238]
ディープフェイク(Deepfakes)は、視聴者を騙すために信頼できるビデオを取得するためのデジタル操作の結果である。
本研究では,様々なタイプの視覚変換器と,特徴抽出器として使用される畳み込み効率ネットB0を組み合わせる。
最も優れたモデルはAUC 0.951とF1スコア88.0%を達成し、DeepFake Detection Challenge (DFDC) の最先端に非常に近い。
論文 参考訳(メタデータ) (2021-07-06T13:35:11Z) - Deepfake Detection Scheme Based on Vision Transformer and Distillation [4.716110829725784]
偽ビデオ検出のための蒸留法を用いたVision Transformerモデルを提案する。
提案手法は,CNN機能の組み合わせにより,入力としてのパッチ埋め込みが最先端であることを確認した。
論文 参考訳(メタデータ) (2021-04-03T09:13:05Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Adversarially robust deepfake media detection using fused convolutional
neural network predictions [79.00202519223662]
現在のディープフェイク検出システムは、目に見えないデータと戦っている。
ビデオから抽出した偽画像と実画像の分類には,CNN(Deep Convolutional Neural Network)モデルが3種類採用されている。
提案手法は96.5%の精度で最先端のモデルより優れている。
論文 参考訳(メタデータ) (2021-02-11T11:28:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。