論文の概要: Detecting Deepfakes with Metric Learning
- arxiv url: http://arxiv.org/abs/2003.08645v1
- Date: Thu, 19 Mar 2020 09:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 04:23:07.846523
- Title: Detecting Deepfakes with Metric Learning
- Title(参考訳): メトリック学習によるディープフェイクの検出
- Authors: Akash Kumar and Arnav Bhavsar
- Abstract要約: 高圧縮シナリオにおけるディープフェイクス分類の文脈における深層学習アプローチについて分析する。
このような分類を行う上で,計量学習に基づく提案手法が極めて有効であることを示す。
当社のアプローチは,データ圧縮が避けられないソーシャルメディアプラットフォームにおいて特に有用である。
- 参考スコア(独自算出の注目度): 9.94524884861004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the arrival of several face-swapping applications such as FaceApp,
SnapChat, MixBooth, FaceBlender and many more, the authenticity of digital
media content is hanging on a very loose thread. On social media platforms,
videos are widely circulated often at a high compression factor. In this work,
we analyze several deep learning approaches in the context of deepfakes
classification in high compression scenario and demonstrate that a proposed
approach based on metric learning can be very effective in performing such a
classification. Using less number of frames per video to assess its realism,
the metric learning approach using a triplet network architecture proves to be
fruitful. It learns to enhance the feature space distance between the cluster
of real and fake videos embedding vectors. We validated our approaches on two
datasets to analyze the behavior in different environments. We achieved a
state-of-the-art AUC score of 99.2% on the Celeb-DF dataset and accuracy of
90.71% on a highly compressed Neural Texture dataset. Our approach is
especially helpful on social media platforms where data compression is
inevitable.
- Abstract(参考訳): FaceApp、SnapChat、MixBooth、FaceBlenderなど、いくつかのフェイススワッピングアプリケーションが登場し、デジタルメディアコンテンツの信頼性が非常に緩いスレッドにかかっている。
ソーシャルメディアプラットフォームでは、ビデオは高い圧縮率で広範に流通している。
本研究では,高圧縮シナリオにおけるディープフェイクス分類の文脈における深層学習アプローチを分析し,計量学習に基づく提案手法が,そのような分類を行う上で非常に有効であることを示す。
ビデオあたりのフレーム数が少なくて現実性を評価することで、トリプルトネットワークアーキテクチャを使ったメトリック学習アプローチは実りあることを証明している。
リアルビデオとフェイクビデオの埋め込みベクトルのクラスタ間の特徴空間距離を拡大することを学ぶ。
異なる環境での動作を分析するために、2つのデータセットに対するアプローチを検証する。
我々はCeleb-DFデータセットで99.2%、高度に圧縮されたNeural Textureデータセットで90.71%という最先端のAUCスコアを達成した。
当社のアプローチは,データ圧縮が避けられないソーシャルメディアプラットフォームにおいて,特に有効です。
関連論文リスト
- DMVC: Multi-Camera Video Compression Network aimed at Improving Deep Learning Accuracy [22.871591373774802]
ユビキタスビデオデータの時代に適した最先端のビデオ圧縮フレームワークを提案する。
人間の視覚知覚を優先する従来の圧縮手法とは異なり、我々の革新的なアプローチは、深層学習の精度に重要な意味情報の保存に重点を置いている。
設計されたディープラーニングアルゴリズムに基づいて、冗長性から必然的に重要な情報を分離し、機械学習タスクに最も関連性の高いデータの供給を確実にする。
論文 参考訳(メタデータ) (2024-10-24T03:29:57Z) - Building an Open-Vocabulary Video CLIP Model with Better Architectures,
Optimization and Data [102.0069667710562]
本稿では,CLIPを強力なゼロショットビデオ分類器に適応させるフレームワークであるOpen-VCLIP++を提案する。
我々は,Open-VCLIP++のトレーニングが,履歴データゼロで連続的な学習に欠かせないことを実証した。
提案手法は,広く使用されている3つの行動認識データセットを用いて評価する。
論文 参考訳(メタデータ) (2023-10-08T04:46:43Z) - Unmasking Deepfakes: Masked Autoencoding Spatiotemporal Transformers for
Enhanced Video Forgery Detection [19.432851794777754]
本稿では,自己教師型マスク自動符号化装置によって事前訓練された視覚変換器を用いたディープフェイク映像の検出手法を提案する。
提案手法は,ビデオの個々のRGBフレームから空間情報を学習することに焦点を当てた2つのコンポーネントで構成され,一方は連続するフレームから生成された光フロー場から時間的整合性情報を学習する。
論文 参考訳(メタデータ) (2023-06-12T05:49:23Z) - Bilevel Fast Scene Adaptation for Low-Light Image Enhancement [50.639332885989255]
低照度シーンにおける画像の強調は、コンピュータビジョンにおいて難しいが、広く懸念されている課題である。
主な障害は、異なるシーンにまたがる分散の相違によるモデリングの混乱にある。
上述の潜在対応をモデル化するための双レベルパラダイムを導入する。
エンコーダのシーン非関連な一般化を多様なシーンにもたらすために、双方向学習フレームワークを構築した。
論文 参考訳(メタデータ) (2023-06-02T08:16:21Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Combining Contrastive and Supervised Learning for Video Super-Resolution
Detection [0.0]
コントラストとクロスエントロピーの損失を用いた視覚表現の学習に基づく新しいアップスケール分解能検出法を提案する。
本手法は,圧縮ビデオにおいてもアップスケーリングを効果的に検出し,最先端の代替品よりも優れる。
論文 参考訳(メタデータ) (2022-05-20T18:58:13Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Face Forensics in the Wild [121.23154918448618]
我々は、ffiw-10kと呼ばれる新しい大規模データセットを構築し、高品質の偽造ビデオ1万本を含む。
操作手順は完全自動で、ドメイン対逆品質評価ネットワークによって制御されます。
さらに,多人数顔偽造検出の課題に取り組むための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-30T05:06:19Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。