Fugu-MT 論文翻訳(概要): A SUPERB-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection

論文の概要: A SUPERB-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection

arxiv url: http://arxiv.org/abs/2603.01482v1
Date: Mon, 02 Mar 2026 05:45:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-03 19:50:56.702991
Title: A SUPERB-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection
Title（参考訳）: オーディオディープフェイク検出のための自己監督音声モデルのスーパーBスタイルベンチマーク
Authors: Hashim Ali, Nithin Sai Adupa, Surya Subramani, Hafiz Malik,
Abstract要約: Spoof-SUPERBはオーディオディープフェイク検出のためのベンチマークである。生成性,差別性,およびスペクトログラムに基づくアーキテクチャにまたがる20のSSLモデルを評価する。
参考スコア（独自算出の注目度）: 2.432576583937997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Self-supervised learning (SSL) has transformed speech processing, with benchmarks such as SUPERB establishing fair comparisons across diverse downstream tasks. Despite it's security-critical importance, Audio deepfake detection has remained outside these efforts. In this work, we introduce Spoof-SUPERB, a benchmark for audio deepfake detection that systematically evaluates 20 SSL models spanning generative, discriminative, and spectrogram-based architectures. We evaluated these models on multiple in-domain and out-of-domain datasets. Our results reveal that large-scale discriminative models such as XLS-R, UniSpeech-SAT, and WavLM Large consistently outperform other models, benefiting from multilingual pretraining, speaker-aware objectives, and model scale. We further analyze the robustness of these models under acoustic degradations, showing that generative approaches degrade sharply, while discriminative models remain resilient. This benchmark establishes a reproducible baseline and provides practical insights into which SSL representations are most reliable for securing speech systems against audio deepfakes.
Abstract（参考訳）: 自己教師付き学習(SSL)は音声処理を変換し、SUPERBなどのベンチマークは様々な下流タスク間で公正な比較を確立する。セキュリティの重要さにもかかわらず、オーディオディープフェイク検出はこれらの努力の外部に留まっている。本研究では,音声ディープフェイク検出のためのベンチマークであるSpof-SUPERBを導入し,生成性,識別性,スペクトルに基づくアーキテクチャにまたがる20のSSLモデルを体系的に評価する。我々はこれらのモデルを複数のドメイン内および外部データセットで評価した。以上の結果から,XLS-R,UniSpeech-SAT,WavLMLargeなどの大規模識別モデルは,多言語事前学習,話者認識目的,モデルスケールの恩恵を受けながら,他のモデルより一貫して優れていることがわかった。さらに、音響劣化下でのこれらのモデルのロバスト性を分析し、生成的アプローチが急激に低下する一方で、識別的モデルは弾力性を維持していることを示す。このベンチマークでは、再現可能なベースラインを確立し、音声のディープフェイクに対して、SSL表現が音声システムに最も信頼性の高いものにするための実践的な洞察を提供する。

関連論文リスト

FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。 FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文参考訳（メタデータ） (2025-04-22T07:40:35Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-08-14T23:33:10Z)
Robustness of Speech Separation Models for Similar-pitch Speakers [14.941946672578863]
単一チャンネル音声分離は,マルチスピーカ環境における音声認識システムを強化する上で重要な課題である。本稿では,話者間のピッチ差が最小限である場合における最先端ニューラルネットワークモデルのロバスト性について検討する。
論文参考訳（メタデータ） (2024-07-22T15:55:08Z)
Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations [16.269123889392343]
本研究は,汎用音声表現学習のための選択状態空間モデルであるAudio Mambaを提案する。 10種類の多様なオーディオ認識ダウンストリームタスクに対する実験結果から、提案したモデルは、同等の自己教師型オーディオスペクトログラム変換器のベースラインを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2024-06-04T10:19:14Z)
Self-supervised Neural Factor Analysis for Disentangling Utterance-level Speech Representations [30.293081541301746]
wav2vecやHuBERTのような自己教師付き学習(SSL)音声モデルは、音声認識における最先端の性能を実証している。この問題は,不整合表現の欠如と発話レベルの学習目標が原因である。我々のモデルは、SUPERBベンチマークの全ての発話レベル非意味タスクにおいて、ラベル付きデータのわずか20%で、現在の最高のモデルであるWavLMより優れています。
論文参考訳（メタデータ） (2023-05-14T08:26:24Z)
Self-supervised models of audio effectively explain human cortical responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文参考訳（メタデータ） (2022-05-27T22:04:02Z)
Self-Supervised Learning for speech recognition with Intermediate layer supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。 ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。 LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2021-12-16T10:45:05Z)
Bridging the Gap Between Clean Data Training and Real-World Inference for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文参考訳（メタデータ） (2021-04-13T17:54:33Z)
Cross-domain Adaptation with Discrepancy Minimization for Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文参考訳（メタデータ） (2020-09-05T02:54:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。