論文の概要: Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems
- arxiv url: http://arxiv.org/abs/2509.09204v1
- Date: Thu, 11 Sep 2025 07:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.266619
- Title: Bona fide Cross Testing Reveals Weak Spot in Audio Deepfake Detection Systems
- Title(参考訳): 音響ディープフェイク検出システムにおける弱斑点検出のボナフィドクロステスト
- Authors: Chin Yuen Kwok, Jia Qi Yip, Zhen Qiu, Chi Hung Chi, Kwok Yan Lam,
- Abstract要約: 我々は,多様なボナフィドデータセットを組み込んだ新しい評価フレームワークであるボナフィドクロステストを提案し,よりバランスの取れた評価のためにEERを集約する。
9種類のボナファイド音声タイプに150以上のシンセサイザーをベンチマークし、さらなる研究を促進するために新しいデータセットをリリースする。
- 参考スコア(独自算出の注目度): 26.00617832033757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio deepfake detection (ADD) models are commonly evaluated using datasets that combine multiple synthesizers, with performance reported as a single Equal Error Rate (EER). However, this approach disproportionately weights synthesizers with more samples, underrepresenting others and reducing the overall reliability of EER. Additionally, most ADD datasets lack diversity in bona fide speech, often featuring a single environment and speech style (e.g., clean read speech), limiting their ability to simulate real-world conditions. To address these challenges, we propose bona fide cross-testing, a novel evaluation framework that incorporates diverse bona fide datasets and aggregates EERs for more balanced assessments. Our approach improves robustness and interpretability compared to traditional evaluation methods. We benchmark over 150 synthesizers across nine bona fide speech types and release a new dataset to facilitate further research at https://github.com/cyaaronk/audio_deepfake_eval.
- Abstract(参考訳): オーディオディープフェイク検出(ADD)モデルは、複数のシンセサイザーを組み合わせたデータセットを使用して一般的に評価される。
しかし、このアプローチはシンセサイザーをより多くのサンプルで不均等に重み付けし、他を過小評価し、EERの全体的な信頼性を低下させる。
さらに、ほとんどのADDデータセットはボナフェイド音声の多様性に欠けており、多くの場合、単一の環境と音声スタイル(例えば、きれいな読み上げ音声)を備え、現実世界の条件をシミュレートする能力を制限する。
これらの課題に対処するために、多様なボナフィドデータセットを組み込んだ新しい評価フレームワークであるボナフィドクロステストを提案し、よりバランスの取れた評価のためにEERを集約する。
本手法は従来の評価手法と比較して頑健さと解釈可能性を向上させる。
我々は9つのボナフッド音声タイプに150以上のシンセサイザーをベンチマークし、https://github.com/cyaaronk/audio_deepfake_eval.comでさらなる研究を促進するために新しいデータセットをリリースする。
関連論文リスト
- Detecting and Rectifying Noisy Labels: A Similarity-based Approach [4.686586017523293]
データセットのラベルノイズは、これらのデータセットでトレーニングされたディープニューラルネットワーク(DNN)のパフォーマンスと堅牢性を著しく損なう可能性がある。
提案手法は,DNNの入射特性を利用したポストホック・モデル非依存ノイズ検出・修正手法である。
我々の考えは、誤ラベル付きデータポイントと真のクラスデータポイントとの類似性は他のクラスのデータポイントよりも高いという観察に基づいている。
論文 参考訳(メタデータ) (2025-09-28T16:41:56Z) - Rehearsal with Auxiliary-Informed Sampling for Audio Deepfake Detection [7.402342914903391]
Rehearsal with Auxiliary-Informed Smpling (RAIS)は、オーディオディープフェイク検出のためのリハーサルベースのCLアプローチである。
RAISはラベル生成ネットワークを使用して補助ラベルを生成し、メモリバッファの多様なサンプル選択を導く。
大規模な実験では、RAISは最先端の手法よりも優れており、5つの経験で平均1.953%のEER(Equal Error Rate)を達成する。
論文 参考訳(メタデータ) (2025-05-30T11:40:50Z) - End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。
最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。
2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T22:05:36Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - Cross-Domain Audio Deepfake Detection: Dataset and Analysis [11.985093463886056]
オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。
最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。
我々は、5つの高度なゼロショットTSモデルによって生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-07T10:10:15Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。