論文の概要: When Fine-Tuning is Not Enough: Lessons from HSAD on Hybrid and Adversarial Audio Spoof Detection
- arxiv url: http://arxiv.org/abs/2509.07323v1
- Date: Tue, 09 Sep 2025 01:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.162551
- Title: When Fine-Tuning is Not Enough: Lessons from HSAD on Hybrid and Adversarial Audio Spoof Detection
- Title(参考訳): ファインチューニングが不十分な場合--HSADによるハイブリッドおよび対向型音声スポフ検出の教訓
- Authors: Bin Hu, Kunyang Huang, Daehan Kwak, Meng Xu, Kuan Huang,
- Abstract要約: 音声検出は、音声認証、スマートアシスタント、通信セキュリティの課題である。
1,248のクリーンと41,044の劣化した発話を含むベンチマークを,人間,クローン,ゼロショットAI生成,ハイブリッドオーディオの4つのクラスに分けて提示する。
事前訓練されたモデルは、ハイブリッド条件下で過度に一般化および崩壊し、スプーフ特異的微調整は分離性を改善するが、目に見えない組成に苦しむ。
- 参考スコア(独自算出の注目度): 3.7411108810335922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of AI has enabled highly realistic speech synthesis and voice cloning, posing serious risks to voice authentication, smart assistants, and telecom security. While most prior work frames spoof detection as a binary task, real-world attacks often involve hybrid utterances that mix genuine and synthetic speech, making detection substantially more challenging. To address this gap, we introduce the Hybrid Spoofed Audio Dataset (HSAD), a benchmark containing 1,248 clean and 41,044 degraded utterances across four classes: human, cloned, zero-shot AI-generated, and hybrid audio. Each sample is annotated with spoofing method, speaker identity, and degradation metadata to enable fine-grained analysis. We evaluate six transformer-based models, including spectrogram encoders (MIT-AST, MattyB95-AST) and self-supervised waveform models (Wav2Vec2, HuBERT). Results reveal critical lessons: pretrained models overgeneralize and collapse under hybrid conditions; spoof-specific fine-tuning improves separability but struggles with unseen compositions; and dataset-specific adaptation on HSAD yields large performance gains (AST greater than 97 percent and F1 score is approximately 99 percent), though residual errors persist for complex hybrids. These findings demonstrate that fine-tuning alone is not sufficient-robust hybrid-aware benchmarks like HSAD are essential to expose calibration failures, model biases, and factors affecting spoof detection in adversarial environments. HSAD thus provides both a dataset and an analytic framework for building resilient and trustworthy voice authentication systems.
- Abstract(参考訳): AIの急速な進歩は、高度に現実的な音声合成と音声クローニングを可能にし、音声認証、スマートアシスタント、通信セキュリティに深刻なリスクをもたらしている。
従来の作業フレームは2つのタスクとしてスプーフ検出を行うが、実世界の攻撃には、真の音声と合成音声を混ぜ合わせたハイブリッドな発話が伴うことが多く、検出がかなり難しい。
このギャップに対処するために、Hybrid Spoofed Audio Dataset (HSAD)を導入した。これは1,248のクリーンで41,044の劣化した発話を含むベンチマークであり、人間、クローン、ゼロショットAI生成、ハイブリッドオーディオである。
各サンプルにはスプーフィング法,話者識別,分解メタデータが付加され,きめ細かい分析が可能となる。
我々は、スペクトログラムエンコーダ(MIT-AST, MattyB95-AST)と自己教師型波形モデル(Wav2Vec2, HuBERT)を含む6つのトランスフォーマーモデルを評価する。
その結果, プレトレーニングされたモデルでは, ハイブリッド条件下での過度な一般化と崩壊, スプーフ特異的微調整により分離性は向上するが, 不明瞭な組成に苦しむ, HSADへのデータセット特異的適応は, 複雑なハイブリッドでは残留誤差が持続するにもかかわらず, 高い性能向上(ASTは97%以上, F1スコアは約99%)が得られた。
これらの結果から, HSADなどのハイブリッド・アウェア・ベンチマークは, キャリブレーション障害, モデルバイアス, スプーフ検出に影響を及ぼす要因を明らかにする上では, 微調整だけでは不十分であることが示唆された。
これによりHSADは、レジリエントで信頼性の高い音声認証システムを構築するためのデータセットと分析フレームワークの両方を提供する。
関連論文リスト
- Hybrid Audio Detection Using Fine-Tuned Audio Spectrogram Transformers: A Dataset-Driven Evaluation of Mixed AI-Human Speech [3.195044561824979]
我々は、人間、AI生成、クローン化、混合オーディオサンプルを組み込んだ、新しいハイブリッドオーディオデータセットを構築した。
本手法は, 混合音響検出において既存のベースラインを著しく上回り, 97%の分類精度を達成している。
本研究は,音声認識システムの堅牢性向上におけるハイブリッドデータセットと調整モデルの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-21T05:43:41Z) - FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。
FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。
本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文 参考訳(メタデータ) (2025-04-22T07:40:35Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples [33.445126880876415]
自動話者検証システムに到達させる代わりに、スプーフ攻撃をフィルタリングする信頼性と堅牢なスプーフ検出システムを提案する。
データ不均衡問題に対処するために重み付き加法的角縁損失が提案され、スプーフィング攻撃に対する一般化を改善するために異なるマージンが割り当てられている。
データ拡張戦略として、スプーフィング音声に知覚不能な摂動を加えて、敵の例にのみ対応する正規化統計が実行されることを保証するために、補助的なバッチ正規化を用いる。
論文 参考訳(メタデータ) (2024-08-23T19:26:54Z) - Retrieval-Augmented Audio Deepfake Detection [27.13059118273849]
そこで本研究では,類似のサンプルを用いて検体を増強する検索拡張検出フレームワークを提案する。
提案したRADフレームワークのベースライン法よりも優れた性能を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-22T05:46:40Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。