論文の概要: Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR
- arxiv url: http://arxiv.org/abs/2603.06164v1
- Date: Fri, 06 Mar 2026 11:16:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.528954
- Title: Do Compact SSL Backbones Matter for Audio Deepfake Detection? A Controlled Study with RAPTOR
- Title(参考訳): オーディオディープフェイク検出のための小型SSLバックボーンは重要か? : RAPTORによる検討
- Authors: Ajinkya Kulkarni, Sandipana Dowerah, Atharva Kulkarni, Tanel Alumäe, Mathew Magimai Doss,
- Abstract要約: 自己教師付き学習(SSL)は、現代のオーディオディープフェイク検出の基盤となっているが、以前の作業の中心は単一の大きなwav2vec2-XLSRバックボーンである。
We present a controlled study of compact SSL backbones from the HuBERT and WavLM within an unified pairwise-gated fusion detector。
我々は,多言語HuBERT事前学習がドメイン間ロバスト性の主要な要因であり,1億モデルが大規模および商用システムと一致することを示す。
- 参考スコア(独自算出の注目度): 30.327041194397022
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Self-supervised learning (SSL) underpins modern audio deepfake detection, yet most prior work centers on a single large wav2vec2-XLSR backbone, leaving compact under studied. We present RAPTOR, Representation Aware Pairwise-gated Transformer for Out-of-domain Recognition a controlled study of compact SSL backbones from the HuBERT and WavLM within a unified pairwise-gated fusion detector, evaluated across 14 cross-domain benchmarks. We show that multilingual HuBERT pre-training is the primary driver of cross-domain robustness, enabling 100M models to match larger and commercial systems. Beyond EER, we introduce a test-time augmentation protocol with perturbation-based aleatoric uncertainty to expose calibration differences invisible to standard metrics: WavLM variants exhibit overconfident miscalibration under perturbation, whereas iterative mHuBERT remains stable. These findings indicate that SSL pre-training trajectory, not model scale, drives reliable audio deepfake detection.
- Abstract(参考訳): 自己教師付き学習(SSL)は、現代のオーディオディープフェイク検出の基盤となっているが、ほとんどの以前の作業センターは単一の大きなwav2vec2-XLSRバックボーン上に置かれており、研究対象はコンパクトのままである。
RAPTOR, Representation Aware Pairwise-gated Transformer for Out-of- domain Recognition A control study of compact SSL backbones from the HuBERT and WavLM in an unified pairwise-gated fusion detector, based in 14 cross- benchmarks。
我々は,多言語HuBERT事前学習がドメイン間ロバスト性の主要な要因であり,1億モデルが大規模および商用システムと一致することを示す。
EER以外にも、摂動に基づくアレタリック不確実性を持つテスト時間拡張プロトコルを導入し、標準指標に見えないキャリブレーション差を露呈する: WavLMの変種は摂動下での過度な誤校正を示すが、反復的なmHuBERTは安定である。
これらの結果は,SSL事前学習軌道がモデルスケールではなく,信頼性の高いオーディオディープフェイク検出を駆動していることを示している。
関連論文リスト
- A SUPERB-Style Benchmark of Self-Supervised Speech Models for Audio Deepfake Detection [2.432576583937997]
Spoof-SUPERBはオーディオディープフェイク検出のためのベンチマークである。
生成性,差別性,およびスペクトログラムに基づくアーキテクチャにまたがる20のSSLモデルを評価する。
論文 参考訳(メタデータ) (2026-03-02T05:45:55Z) - Learning to Separate RF Signals Under Uncertainty: Detect-Then-Separate vs. Unified Joint Models [53.79667447811139]
受信した信号に直接適用した場合、単一のディープニューラルネットワークアーキテクチャが共同で検出および分離することを学習していることを示す。
これらの結果から,UJM は DTS に代わるスケーラブルで実用的な代替品であり,広範に推定された統合分離のための新たな方向を開拓した。
論文 参考訳(メタデータ) (2026-02-04T15:25:02Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - Entropy-Guided Agreement-Diversity: A Semi-Supervised Active Learning Framework for Fetal Head Segmentation in Ultrasound [4.594829845106234]
胎児の頭部分節のための2段階アクティブラーニングサンプリングであるEntropy-Guided Agreement-Diversity(EGAD)を提案する。
実験では、SSL-EGADは胎児の頭分割のための2つの公開データセットで平均94.57%と96.32%のDiceスコアを達成している。
論文 参考訳(メタデータ) (2026-01-24T13:23:18Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - Cross-Attention with Confidence Weighting for Multi-Channel Audio Alignment [5.380078543698624]
マルチチャンネルオーディオアライメントは、生体音響モニタリング、空間オーディオシステム、音響ローカライゼーションにおいて重要な要件である。
マルチチャンネル音声同期を改善するために,クロスアテンション機構と信頼度重み付けスコアリングを組み合わせた手法を提案する。
提案手法は,BioDCASE 2025 Task 1 チャレンジにおいて,ディープラーニングベースラインの 0.58 に対して,テストデータセットの平均 0.30 MSE で1位となった。
論文 参考訳(メタデータ) (2025-09-21T05:14:06Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - Benchmark for Uncertainty & Robustness in Self-Supervised Learning [0.0]
セルフ・スーパーバイザード・ラーニングは現実世界のアプリケーション、特に医療や自動運転車のようなデータ・ハングリーな分野に不可欠である。
本稿では Jigsaw Puzzles, Context, Rotation, Geometric Transformations Prediction for vision や BERT や GPT for Language Task など,SSL メソッドの変種について検討する。
我々のゴールは、実験から出力されたベンチマークを作成し、信頼性のある機械学習で新しいSSLメソッドの出発点を提供することです。
論文 参考訳(メタデータ) (2022-12-23T15:46:23Z) - Mitigating the Mutual Error Amplification for Semi-Supervised Object
Detection [92.52505195585925]
擬似ラベルの修正機構を導入し,相互誤りの増幅を緩和するクロス・インストラクション(CT)手法を提案する。
他の検出器からの予測を直接擬似ラベルとして扱う既存の相互指導法とは対照的に,我々はラベル修正モジュール(LRM)を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:34:57Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。