論文の概要: Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes
- arxiv url: http://arxiv.org/abs/2311.17655v1
- Date: Wed, 29 Nov 2023 14:18:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:07:01.977217
- Title: Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes
- Title(参考訳): 視聴覚ディープフェイクにおける識別自動認識の脆弱性
- Authors: Pavel Korshunov, Haolin Chen, Philip N. Garner, and Sebastien Marcel
- Abstract要約: 本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
- 参考スコア(独自算出の注目度): 13.042731289687918
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of deepfakes detection is far from being solved by speech or vision
researchers. Several publicly available databases of fake synthetic video and
speech were built to aid the development of detection methods. However,
existing databases typically focus on visual or voice modalities and provide no
proof that their deepfakes can in fact impersonate any real person. In this
paper, we present the first realistic audio-visual database of deepfakes
SWAN-DF, where lips and speech are well synchronized and video have high visual
and audio qualities. We took the publicly available SWAN dataset of real videos
with different identities to create audio-visual deepfakes using several models
from DeepFaceLab and blending techniques for face swapping and HiFiVC, DiffVC,
YourTTS, and FreeVC models for voice conversion. From the publicly available
speech dataset LibriTTS, we also created a separate database of only audio
deepfakes LibriTTS-DF using several latest text to speech methods: YourTTS,
Adaspeech, and TorToiSe. We demonstrate the vulnerability of a state of the art
speaker recognition system, such as ECAPA-TDNN-based model from SpeechBrain, to
the synthetic voices. Similarly, we tested face recognition system based on the
MobileFaceNet architecture to several variants of our visual deepfakes. The
vulnerability assessment show that by tuning the existing pretrained deepfake
models to specific identities, one can successfully spoof the face and speaker
recognition systems in more than 90% of the time and achieve a very realistic
looking and sounding fake video of a given person.
- Abstract(参考訳): ディープフェイク検出の課題は、音声や視覚研究者による解決には程遠い。
偽合成ビデオと音声の公開データベースがいくつか構築され、検出方法の開発に役立った。
しかし、既存のデータベースは通常、視覚や音声のモダリティに焦点を当てており、彼らのディープフェイクが実際の人物を偽装できる証拠を提供していない。
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させ, 映像の視覚的・音声的特性を高く評価した。
私たちは、DeepFaceLabのいくつかのモデルと、顔交換やHiFiVC、DiffVC、YourTTS、FreeVCモデルのブレンディング技術を使って、さまざまなアイデンティティを持つ実ビデオのSWANデータセットを公開して、音声-視覚的ディープフェイクを作成しました。
また,一般公開された音声データセットLibriTTSから,YourTTS,Adaspeech,TorToiSeという,音声のディープフェイクスLibriTTS-DFのみのデータベースを構築した。
本研究では,音声脳からのecapa-tdnnモデルなど,最先端の音声認識システムの脆弱性を合成音声に示す。
同様に、mobilefacenetアーキテクチャに基づく顔認識システムを、視覚ディープフェイクのいくつかの変種に対してテストした。
脆弱性評価は、既存の訓練済みディープフェイクモデルを特定のアイデンティティにチューニングすることで、90%以上の時間で顔と話者の認識システムをスポアリングし、ある人の非常にリアルなルックアンドサウンドの偽ビデオを実現することができることを示している。
関連論文リスト
- Deepfake detection in videos with multiple faces using geometric-fakeness features [79.16635054977068]
被害者や人物のディープフェイクは、脅迫、ゆがみ、金融詐欺の詐欺師によって使用される。
本研究では,映像中の顔の存在の動的度を特徴付ける幾何学的フェイクネス機能(GFF)を提案する。
我々は、ビデオに同時に存在する複数の顔でビデオを分析するために、我々のアプローチを採用している。
論文 参考訳(メタデータ) (2024-10-10T13:10:34Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - FTFDNet: Learning to Detect Talking Face Video Manipulation with
Tri-Modality Interaction [9.780101247514366]
特に唇領域では、フェイク音声映像の光学的流れが乱れている。
より情報的な特徴を発見するために,新しい音声視覚アテンション機構 (AVAM) を提案する。
提案したFTFDNetは、他の最先端のDeepFakeビデオ検出方法よりも優れた検出性能を実現することができる。
論文 参考訳(メタデータ) (2023-07-08T14:45:16Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - An Audio-Visual Attention Based Multimodal Network for Fake Talking Face
Videos Detection [45.210105822471256]
FTFDNetは、音声と視覚表現を取り入れて、より正確なフェイク・トーキング・フェイス・ビデオ検出を実現する。
提案手法の評価は,97%以上の精度で検出できる偽の通話顔映像の検出に優れた性能を示した。
論文 参考訳(メタデータ) (2022-03-10T06:16:11Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Emotions Don't Lie: An Audio-Visual Deepfake Detection Method Using
Affective Cues [75.1731999380562]
本稿では,実・偽のディープフェイクマルチメディアコンテンツを検出する学習手法を提案する。
我々は,同じビデオから2つのオーディオと視覚の類似性を抽出し,解析する。
我々は,いくつかのSOTAディープフェイク検出手法との比較を行い,DFDCでは84.4%,DF-TIMITデータセットでは96.6%の動画AUCを報告した。
論文 参考訳(メタデータ) (2020-03-14T22:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。