論文の概要: Harder or Different? Understanding Generalization of Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2406.03512v2
- Date: Fri, 7 Jun 2024 13:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 12:43:28.542785
- Title: Harder or Different? Understanding Generalization of Audio Deepfake Detection
- Title(参考訳): 困難か違いか?オーディオディープフェイク検出の一般化を理解する
- Authors: Nicolas M. Müller, Nicholas Evans, Hemlata Tak, Philip Sperl, Konstantin Böttinger,
- Abstract要約: 最近の研究は、音声のディープフェイク検出における重要な課題を強調している。
これは、テキスト音声(TTS)モデルの品質が継続的に向上していること、すなわち、より新しいDeepFakesは単に'ハード'で検出できるのか?
ドメイン内テストデータとドメイン外テストデータのパフォーマンスギャップを'ハードネス'と'ディファレンス'コンポーネントに分解することで、この問題に答える。
- 参考スコア(独自算出の注目度): 8.878420552256266
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research has highlighted a key issue in speech deepfake detection: models trained on one set of deepfakes perform poorly on others. The question arises: is this due to the continuously improving quality of Text-to-Speech (TTS) models, i.e., are newer DeepFakes just 'harder' to detect? Or, is it because deepfakes generated with one model are fundamentally different to those generated using another model? We answer this question by decomposing the performance gap between in-domain and out-of-domain test data into 'hardness' and 'difference' components. Experiments performed using ASVspoof databases indicate that the hardness component is practically negligible, with the performance gap being attributed primarily to the difference component. This has direct implications for real-world deepfake detection, highlighting that merely increasing model capacity, the currently-dominant research trend, may not effectively address the generalization challenge.
- Abstract(参考訳): 最近の研究は、音声のディープフェイク検出における重要な課題を強調している。
これは、テキスト音声(TTS)モデルの品質が継続的に向上していること、すなわち、より新しいDeepFakesは単に'ハード'で検出できるのか?
あるいは、あるモデルで生成されたディープフェイクが、別のモデルで生成されたディープフェイクと根本的に異なるからだろうか?
ドメイン内テストデータとドメイン外テストデータのパフォーマンスギャップを'ハードネス'と'ディファレンス'コンポーネントに分解することで、この問題に答える。
ASVspoofデータベースを用いて行った実験は、硬さ成分が事実上無視可能であることを示している。
これは現実世界のディープフェイク検出に直接的な意味を持ち、現在支配的な研究トレンドであるモデル容量の増加だけでは、一般化の課題に効果的に対処できないことを強調している。
関連論文リスト
- DF40: Toward Next-Generation Deepfake Detection [62.073997142001424]
既存の作業では、ある特定のデータセット(例えばFF++)上で検出器をトレーニングし、他の一般的なディープフェイクデータセットでそれらをテストすることで、トップノッチ検出アルゴリズムとモデルを識別する。
しかし、これらの「勝者」は現実の世界に潜む無数の現実的で多様なディープフェイクに取り組むために真に応用できるのだろうか?
我々は,40種類の異なるディープフェイク技術からなるDF40という,高度に多様な大規模ディープフェイクデータセットを構築した。
次に,4つの標準評価プロトコルと7つの代表検出器を用いて総合評価を行い,2000以上の評価を行った。
論文 参考訳(メタデータ) (2024-06-19T12:35:02Z) - Metamorphic Testing-based Adversarial Attack to Fool Deepfake Detectors [2.0649235321315285]
ディープフェイク検出技術はディープフェイクメディアを見つけるのに役立つ。
現在のディープフェイク検出モデルは、卓越した精度(>90%)を達成することができる
本研究は、メイクアップを、ディープフェイク検出器を騙す可能性のある敵攻撃として特定する。
論文 参考訳(メタデータ) (2022-04-19T02:24:30Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Multi-attentional Deepfake Detection [79.80308897734491]
ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。
新たなマルチアテンテーショナルディープフェイク検出ネットワークを提案する。
具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。
論文 参考訳(メタデータ) (2021-03-03T13:56:14Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。