論文の概要: Audio-Visual Person-of-Interest DeepFake Detection
- arxiv url: http://arxiv.org/abs/2204.03083v3
- Date: Thu, 18 May 2023 06:56:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 21:10:37.989077
- Title: Audio-Visual Person-of-Interest DeepFake Detection
- Title(参考訳): 視覚障害者のディープフェイク検出
- Authors: Davide Cozzolino, Alessandro Pianese, Matthias Nie{\ss}ner, Luisa
Verdoliva
- Abstract要約: 本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
- 参考スコア(独自算出の注目度): 77.04789677645682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face manipulation technology is advancing very rapidly, and new methods are
being proposed day by day. The aim of this work is to propose a deepfake
detector that can cope with the wide variety of manipulation methods and
scenarios encountered in the real world. Our key insight is that each person
has specific characteristics that a synthetic generator likely cannot
reproduce. Accordingly, we extract audio-visual features which characterize the
identity of a person, and use them to create a person-of-interest (POI)
deepfake detector. We leverage a contrastive learning paradigm to learn the
moving-face and audio segment embeddings that are most discriminative for each
identity. As a result, when the video and/or audio of a person is manipulated,
its representation in the embedding space becomes inconsistent with the real
identity, allowing reliable detection. Training is carried out exclusively on
real talking-face video; thus, the detector does not depend on any specific
manipulation method and yields the highest generalization ability. In addition,
our method can detect both single-modality (audio-only, video-only) and
multi-modality (audio-video) attacks, and is robust to low-quality or corrupted
videos. Experiments on a wide variety of datasets confirm that our method
ensures a SOTA performance, especially on low quality videos. Code is publicly
available on-line at https://github.com/grip-unina/poi-forensics.
- Abstract(参考訳): 顔操作技術は非常に急速に進歩しており、新しい手法が日々提案されている。
本研究の目的は,現実世界で遭遇する多種多様な操作方法やシナリオに対応可能なディープフェイク検出器を提案することである。
私たちの重要な洞察は、合成発電機が再生できない可能性のある特定の特徴を持っていることです。
そこで我々は,人物の身元を特徴付ける音響視覚的特徴を抽出し,それを応用して個人関心深度検出器(POI)を作成する。
我々は、各アイデンティティに対して最も差別的な移動面と音声セグメント埋め込みを学ぶために、対照的な学習パラダイムを利用する。
その結果、人のビデオや音声が操作されると、埋め込み空間におけるその表現は実際のアイデンティティと矛盾し、信頼できる検出が可能となる。
訓練は実際の音声映像のみで行われるため、検出器は特定の操作方法に依存しず、最高の一般化能力が得られる。
さらに,シングルモダリティ攻撃(オーディオのみ,ビデオのみ)とマルチモダリティ攻撃(オーディオビデオ)の両方を検出でき,低品質ビデオや腐敗ビデオに対して堅牢である。
各種データセットに対する実験により,SOTAの性能,特に低品質ビデオにおける性能が保証されることを確認した。
コードはhttps://github.com/grip-unina/poi-forensicsで公開されている。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video
Deepfake Detection [10.36919027402249]
人間の話し言葉の合成ビデオは、説得力のある方法で誤情報を拡散するのに使用することができる。
FakeOutは、事前トレーニングフェーズと適応フェーズの両方でマルチモーダルデータに依存する、新しいアプローチである。
提案手法は,オーディオ・ビジュアル・データセット上でのクロスデータセットの一般化を実現する。
論文 参考訳(メタデータ) (2022-12-01T18:56:31Z) - Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis [60.13902294276283]
我々は826の動画(413のリアルと413の操作)からなるデータセットであるVideoShamを提示する。
既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。
我々の分析によると、最先端の操作検出アルゴリズムはいくつかの特定の攻撃に対してのみ有効であり、VideoShamではうまくスケールしない。
論文 参考訳(メタデータ) (2022-07-26T17:39:04Z) - Watch Those Words: Video Falsification Detection Using Word-Conditioned
Facial Motion [82.06128362686445]
本稿では,安価なディープフェイクと視覚的に説得力のあるディープフェイクの両方を扱うためのマルチモーダルな意味法医学的アプローチを提案する。
帰属という概念を利用して、ある話者と他の話者を区別する個人固有の生体パターンを学習する。
既存の個人固有のアプローチとは異なり、この手法は口唇の操作に焦点を当てた攻撃にも有効である。
論文 参考訳(メタデータ) (2021-12-21T01:57:04Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z) - ID-Reveal: Identity-aware DeepFake Video Detection [24.79483180234883]
ID-Reveal(ID-Reveal)は、時間的顔の特徴を学習する新しいアプローチだ。
偽物のトレーニングデータは必要ありませんが、実際のビデオでトレーニングするだけです。
高圧縮映像における顔再現の精度は平均15%以上向上した。
論文 参考訳(メタデータ) (2020-12-04T10:43:16Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。