論文の概要: Mixture of Low-Rank Adapter Experts in Generalizable Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2509.13878v1
- Date: Wed, 17 Sep 2025 10:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.817187
- Title: Mixture of Low-Rank Adapter Experts in Generalizable Audio Deepfake Detection
- Title(参考訳): 一般化可能なオーディオディープフェイク検出における低ランク適応者の混在
- Authors: Janne Laakkonen, Ivan Kukanov, Ville Hautamäki,
- Abstract要約: 基礎モデルは、音声ディープフェイク検出を含む音声タスクにおける表現学習に優れる。
本稿では,複数の低ランクアダプタをモデルのアテンション層に組み込んだLoRA-Expertsアプローチを提案する。
実験の結果,本手法はドメイン内シナリオとドメイン外シナリオの両方において,標準的な微調整よりも優れていた。
- 参考スコア(独自算出の注目度): 5.277931896456617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models such as Wav2Vec2 excel at representation learning in speech tasks, including audio deepfake detection. However, after being fine-tuned on a fixed set of bonafide and spoofed audio clips, they often fail to generalize to novel deepfake methods not represented in training. To address this, we propose a mixture-of-LoRA-experts approach that integrates multiple low-rank adapters (LoRA) into the model's attention layers. A routing mechanism selectively activates specialized experts, enhancing adaptability to evolving deepfake attacks. Experimental results show that our method outperforms standard fine-tuning in both in-domain and out-of-domain scenarios, reducing equal error rates relative to baseline models. Notably, our best MoE-LoRA model lowers the average out-of-domain EER from 8.55\% to 6.08\%, demonstrating its effectiveness in achieving generalizable audio deepfake detection.
- Abstract(参考訳): Wav2Vec2のような基礎モデルは、音声ディープフェイク検出を含む音声タスクにおける表現学習に優れる。
しかし、ボナフィドの固定セットとスプーフのオーディオクリップを微調整した後、訓練で表現されない新しいディープフェイク法に一般化することができないことが多い。
そこで本研究では,複数のローランクアダプタ(LoRA)をモデルのアテンション層に統合する,LoRA-Expertsの混合手法を提案する。
ルーティング機構は特別な専門家を選択的に活性化し、ディープフェイク攻撃への適応性を高める。
実験の結果,本手法はドメイン内シナリオとドメイン外シナリオの両方において標準微調整よりも優れており,ベースラインモデルと同等の誤差率を低減できることがわかった。
特に、我々のMoE-LoRAモデルでは、平均ドメイン外EERを8.55\%から6.08\%に下げ、一般化可能なオーディオディープフェイク検出の実現の有効性を示す。
関連論文リスト
- Towards Reliable Audio Deepfake Attribution and Model Recognition: A Multi-Level Autoencoder-Based Framework [7.755879452365207]
オーディオディープフェイクの拡散は、デジタル通信に対する信頼の高まりを示唆している。
LAVAは,音声のディープフェイク検出とモデル認識のための階層的なフレームワークである。
生成技術を識別するAudio Deepfake Attribution (ADA) と、特定の生成モデルインスタンスを認識するAudio Deepfake Model Recognition (ADMR) である。
論文 参考訳(メタデータ) (2025-08-04T15:31:13Z) - Reliable Few-shot Learning under Dual Noises [166.53173694689693]
そこで我々はDETA++(Denoized Task Adaptation)を提案する。
DETA++はメモリバンクを使用して、各インナータスククラスのクリーンなリージョンを格納し、精製する。
大規模な実験は、DETA++の有効性と柔軟性を示している。
論文 参考訳(メタデータ) (2025-06-19T14:05:57Z) - Unified AI for Accurate Audio Anomaly Detection [0.0]
本稿では,高精度な音声異常検出のための統合AIフレームワークを提案する。
高度なノイズ低減、特徴抽出、機械学習モデリング技術を統合する。
このフレームワークはTORGOやLibriSpeechといったベンチマークデータセットで評価されている。
論文 参考訳(メタデータ) (2025-05-20T16:56:08Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection [57.537583869961885]
自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。
我々は、wav2vec2モデルにローランク適応(LoRA)を適用し、トレーニング済みモデルの重みを凍結し、トランスアーキテクチャの各層にトレーニング可能なランク分解行列を注入する。
317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を実現した。
論文 参考訳(メタデータ) (2023-06-09T01:43:41Z) - Adaptive Fake Audio Detection with Low-Rank Model Squeezing [50.7916414913962]
ファインタニングのような従来の手法は計算集約的であり、既知の偽音声タイプの知識を損なう危険性がある。
本稿では,新たに登場したニセモノ音声タイプに特化して,低ランク適応行列をトレーニングするコンセプトを紹介する。
当社のアプローチには,ストレージメモリ要件の削減やエラー率の低下など,いくつかのメリットがあります。
論文 参考訳(メタデータ) (2023-06-08T06:06:42Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Attack Agnostic Dataset: Towards Generalization and Stabilization of
Audio DeepFake Detection [0.4511923587827302]
音声のディープフェイク検出法は, 優れた一般化と安定性を特徴とする。
本稿では,現状のDeepFake検出手法を徹底的に分析し,様々な音声特徴(フロントエンド)について考察する。
LFCC と mel-spectrogram のフロントエンドを用いたLCNN に基づくモデルを提案する。
論文 参考訳(メタデータ) (2022-06-27T12:30:44Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。