論文の概要: FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video
Deepfake Detection
- arxiv url: http://arxiv.org/abs/2212.00773v1
- Date: Thu, 1 Dec 2022 18:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 16:32:09.385051
- Title: FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video
Deepfake Detection
- Title(参考訳): FakeOut:マルチモーダルビデオディープフェイク検出のためのドメイン外セルフスーパービジョンを活用する
- Authors: Gil Knafo and Ohad Fried
- Abstract要約: 人間の話し言葉の合成ビデオは、説得力のある方法で誤情報を拡散するのに使用することができる。
FakeOutは、事前トレーニングフェーズと適応フェーズの両方でマルチモーダルデータに依存する、新しいアプローチである。
提案手法は, クロスマニピュレーションおよびクロスデータセットの一般化における最先端結果を実現する。
- 参考スコア(独自算出の注目度): 5.983405936883196
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video synthesis methods rapidly improved in recent years, allowing easy
creation of synthetic humans. This poses a problem, especially in the era of
social media, as synthetic videos of speaking humans can be used to spread
misinformation in a convincing manner. Thus, there is a pressing need for
accurate and robust deepfake detection methods, that can detect forgery
techniques not seen during training. In this work, we explore whether this can
be done by leveraging a multi-modal, out-of-domain backbone trained in a
self-supervised manner, adapted to the video deepfake domain. We propose
FakeOut; a novel approach that relies on multi-modal data throughout both the
pre-training phase and the adaption phase. We demonstrate the efficacy and
robustness of FakeOut in detecting various types of deepfakes, especially
manipulations which were not seen during training. Our method achieves
state-of-the-art results in cross-manipulation and cross-dataset
generalization. This study shows that, perhaps surprisingly, training on
out-of-domain videos (i.e., videos with no speaking humans), can lead to better
deepfake detection systems. Code is available on GitHub.
- Abstract(参考訳): 近年、ビデオ合成法は急速に進歩し、合成ヒトを容易に作れるようになった。
これは、特にソーシャルメディアの時代において問題となり、話す人間の合成ビデオは、説得力のある方法で誤情報の拡散に使用できる。
したがって、トレーニング中に見えない偽造技術を検出することができる正確で堅牢なディープフェイク検出方法が求められている。
本研究では,ビデオのdeepfakeドメインに適応した,自己監督型でトレーニングされたマルチモーダルなドメイン外バックボーンを活用することで,これを実現することができるか検討する。
プリトレーニングフェーズと適応フェーズの両方において,マルチモーダルデータに依存する新しいアプローチであるfakeoutを提案する。
様々なタイプのディープフェイク,特に訓練中に見られなかった操作の検出において,フェイクアウトの有効性とロバスト性を示す。
本手法はクロスマニピュレーションとクロスデータセットの一般化により最先端の結果を得る。
この研究は、おそらく驚くべきことに、ドメイン外ビデオ(つまり、人間を話さないビデオ)のトレーニングがディープフェイク検出システムの改善につながることを示している。
コードはGitHubで入手できる。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - Unmasking Illusions: Understanding Human Perception of Audiovisual Deepfakes [49.81915942821647]
本研究は,ディープフェイク映像を主観的研究により識別する人間の能力を評価することを目的とする。
人間の観察者を5つの最先端オーディオ視覚深度検出モデルと比較することにより,その知見を提示する。
同じ40の動画で評価すると、すべてのAIモデルは人間より優れていることが分かりました。
論文 参考訳(メタデータ) (2024-05-07T07:57:15Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Undercover Deepfakes: Detecting Fake Segments in Videos [1.2609216345578933]
ディープフェイク・ジェネレーションは ディープフェイクの新しいパラダイムだ ほとんどは 真実を歪めるために わずかに修正された 実際のビデオだ
本稿では,フレームとビデオレベルでディープフェイク予測を行うことにより,この問題に対処できるディープフェイク検出手法を提案する。
特に、私たちが取り組むパラダイムは、ディープフェイクのモデレーションのための強力なツールを形成します。
論文 参考訳(メタデータ) (2023-05-11T04:43:10Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z) - A Convolutional LSTM based Residual Network for Deepfake Video Detection [23.275080108063406]
我々は、深層ビデオを検出するための畳み込みLSTMベースのResidual Network(CLRNet)を開発した。
また,異なるディープフェイク手法を一般化するための伝達学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T05:57:06Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。