論文の概要: Does Audio Deepfake Detection Generalize?
- arxiv url: http://arxiv.org/abs/2203.16263v1
- Date: Wed, 30 Mar 2022 12:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:56:17.474883
- Title: Does Audio Deepfake Detection Generalize?
- Title(参考訳): オーディオディープフェイク検出は一般化するか?
- Authors: Nicolas M. M\"uller, Pavel Czempin, Franziska Dieckmann, Adam
Froghyar, Konstantin B\"ottinger
- Abstract要約: 我々は、関連する作業からアーキテクチャを再実装し、一様に評価することで、音声スプーフィング検出をシステム化する。
有名人や政治家のオーディオ録音を37.9時間記録したデータセットを新たに公開し、そのうち17.2時間がディープフェイクである。
これは、コミュニティがASVSpoofベンチマークに近づきすぎており、ディープフェイクが以前考えられていたよりもラボ外で検出するのがずっと難しいことを示唆しているかもしれない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text-to-speech algorithms produce realistic fakes of human voices,
making deepfake detection a much-needed area of research. While researchers
have presented various techniques for detecting audio spoofs, it is often
unclear exactly why these architectures are successful: Preprocessing steps,
hyperparameter settings, and the degree of fine-tuning are not consistent
across related work. Which factors contribute to success, and which are
accidental? In this work, we address this problem: We systematize audio
spoofing detection by re-implementing and uniformly evaluating architectures
from related work. We identify overarching features for successful audio
deepfake detection, such as using cqtspec or logspec features instead of
melspec features, which improves performance by 37% EER on average, all other
factors constant. Additionally, we evaluate generalization capabilities: We
collect and publish a new dataset consisting of 37.9 hours of found audio
recordings of celebrities and politicians, of which 17.2 hours are deepfakes.
We find that related work performs poorly on such real-world data (performance
degradation of up to one thousand percent). This may suggest that the community
has tailored its solutions too closely to the prevailing ASVSpoof benchmark and
that deepfakes are much harder to detect outside the lab than previously
thought.
- Abstract(参考訳): 現在のテキストから音声へのアルゴリズムは、人間の声の現実的なフェイクを生成し、ディープフェイク検出を非常に必要な研究領域にする。
研究者たちは、オーディオスプーフを検出するための様々なテクニックを提示してきたが、これらのアーキテクチャが成功した理由がよく分かっていない: 事前処理ステップ、ハイパーパラメータ設定、微調整の程度は、関連する作業間で一致していない。
成功に寄与する要因は何か。
本研究では, 関連する作業からアーキテクチャを再実装し, 均一に評価することで, 音声スプーフィング検出をシステム化する。
メリースペック機能の代わりにcqtspecやlogspec機能などのオーディオディープフェイク検出を成功させるためには,平均で37%のEERの性能向上が期待できる。
我々は、有名人や政治家の音声記録を37.9時間収集し、新しいデータセットを公開し、そのうち17.2時間はディープフェイクである。
このような実世界のデータ(最大1000パーセントの性能劣化)では、関連する作業が不十分であることが分かりました。
これは、コミュニティがASVSpoofベンチマークに近づきすぎており、ディープフェイクが以前考えられていたよりもラボ外で検出するのがずっと難しいことを示唆しているかもしれない。
関連論文リスト
- DiMoDif: Discourse Modality-information Differentiation for Audio-visual Deepfake Detection and Localization [13.840950434728533]
本稿では,新しいオーディオ・ビジュアル・ディープフェイク検出フレームワークを提案する。
実際のサンプルでは、ディープフェイクとは対照的に、視覚信号と音声信号は情報の観点から一致しているという仮定に基づいている。
ビデオと音声の音声認識に特化しているディープネットワークの機能を、フレームレベルのクロスモーダルな矛盾を見つけるために使用しています。
論文 参考訳(メタデータ) (2024-11-15T13:47:33Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - VoiceWukong: Benchmarking Deepfake Voice Detection [6.8595368524357285]
本稿では,ディープフェイク音声検出器の性能を評価するためのベンチマークであるVoiceWukongを紹介する。
データセットを構築するために、まず19の商用ツールと15のオープンソースツールによって生成されたディープフェイク音声を収集しました。
次に、6種類の操作をカバーする38のデータ変種を作成し、ディープフェイク音声検出のための評価データセットを構築した。
論文 参考訳(メタデータ) (2024-09-10T09:07:12Z) - DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の研究は、ある特定のデータセットで検出器をトレーニングし、他の一般的なディープフェイクデータセットでテストすることで、トップノーチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40の異なるディープフェイク技術からなるDF40という,高度に多様なディープフェイク検出データセットを構築した。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - Harder or Different? Understanding Generalization of Audio Deepfake Detection [8.878420552256266]
最近の研究は、音声のディープフェイク検出における重要な課題を強調している。
これは、テキスト音声(TTS)モデルの品質が継続的に向上していること、すなわち、より新しいDeepFakesは単に'ハード'で検出できるのか?
ドメイン内テストデータとドメイン外テストデータのパフォーマンスギャップを'ハードネス'と'ディファレンス'コンポーネントに分解することで、この問題に答える。
論文 参考訳(メタデータ) (2024-06-05T10:33:15Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - SpecRNet: Towards Faster and More Accessible Audio DeepFake Detection [0.4511923587827302]
SpecRNetは、高速な推論時間と低い計算要求を特徴とするニューラルネットワークアーキテクチャである。
我々のベンチマークは、オーディオサンプルを処理するのに最大40%の時間を要するSpecRNetがLCNNアーキテクチャに匹敵するパフォーマンスを提供することを示している。
論文 参考訳(メタデータ) (2022-10-12T11:36:14Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。