論文の概要: Audio-Visual Person-of-Interest DeepFake Detection
- arxiv url: http://arxiv.org/abs/2204.03083v1
- Date: Wed, 6 Apr 2022 20:51:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 15:58:13.785485
- Title: Audio-Visual Person-of-Interest DeepFake Detection
- Title(参考訳): 視覚障害者のディープフェイク検出
- Authors: Davide Cozzolino, Matthias Nie{\ss}ner, Luisa Verdoliva
- Abstract要約: 本研究では,現実世界で発生する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案する。
鍵となる洞察は、各人が特定の生体特性を持ち、合成発電機が再現できない可能性があることである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
- 参考スコア(独自算出の注目度): 17.25058785079305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face manipulation technology is advancing very rapidly, and new methods are
being proposed day by day. The aim of this work is to propose a deepfake
detector that can cope with the wide variety of manipulation methods and
scenarios encountered in the real world. Our key insight is that each person
has specific biometric characteristics that a synthetic generator cannot likely
reproduce. Accordingly, we extract high-level audio-visual biometric features
which characterize the identity of a person, and use them to create a
person-of-interest (POI) deepfake detector. We leverage a contrastive learning
paradigm to learn the moving-face and audio segments embeddings that are most
discriminative for each identity. As a result, when the video and/or audio of a
person is manipulated, its representation in the embedding space becomes
inconsistent with the real identity, allowing reliable detection. Training is
carried out exclusively on real talking-face videos, thus the detector does not
depend on any specific manipulation method and yields the highest
generalization ability. In addition, our method can detect both single-modality
(audio-only, video-only) and multi-modality (audio-video) attacks, and is
robust to low-quality or corrupted videos by building only on high-level
semantic features. Experiments on a wide variety of datasets confirm that our
method ensures a SOTA performance, with an average improvement in terms of AUC
of around 3%, 10%, and 7% for high-quality, low quality and attacked videos,
respectively.
- Abstract(参考訳): 顔操作技術は非常に急速に進歩しており、新しい手法が日々提案されている。
本研究の目的は,現実世界で遭遇する多種多様な操作方法やシナリオに対応可能なディープフェイク検出器を提案することである。
私たちの重要な洞察は、合成発電機が再生できない特定の生体特性を持っていることです。
そこで我々は,人物の身元を特徴付ける高レベルの聴覚・視覚バイオメトリックな特徴を抽出し,その特徴を生かしたディープフェイク検出器(POI)を作成する。
対照的な学習パラダイムを用いて,各アイデンティティの最も識別性の高い移動面と音声セグメントの埋め込みを学習する。
その結果、人のビデオや音声が操作されると、埋め込み空間におけるその表現は実際のアイデンティティと矛盾し、信頼できる検出が可能となる。
訓練は実際の会話ビデオのみに行われるため、検出器は特定の操作方法に依存しず、最も一般化能力が得られる。
さらに,シングルモダリティ攻撃(オーディオのみ,ビデオのみ)とマルチモダリティ攻撃(オーディオビデオ)の両方を検出でき,高レベルのセマンティクス機能のみを基盤とした低品質ビデオや腐敗ビデオに対して堅牢である。
様々なデータセットを用いた実験により,高品質,低品質,アタックビデオでは平均で約3%,10%,7%のaucが改善され,soma性能が保証されることを確認した。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video
Deepfake Detection [10.36919027402249]
人間の話し言葉の合成ビデオは、説得力のある方法で誤情報を拡散するのに使用することができる。
FakeOutは、事前トレーニングフェーズと適応フェーズの両方でマルチモーダルデータに依存する、新しいアプローチである。
提案手法は,オーディオ・ビジュアル・データセット上でのクロスデータセットの一般化を実現する。
論文 参考訳(メタデータ) (2022-12-01T18:56:31Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z) - ID-Reveal: Identity-aware DeepFake Video Detection [24.79483180234883]
ID-Reveal(ID-Reveal)は、時間的顔の特徴を学習する新しいアプローチだ。
偽物のトレーニングデータは必要ありませんが、実際のビデオでトレーニングするだけです。
高圧縮映像における顔再現の精度は平均15%以上向上した。
論文 参考訳(メタデータ) (2020-12-04T10:43:16Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。