論文の概要: Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection
- arxiv url: http://arxiv.org/abs/2409.05032v1
- Date: Sun, 8 Sep 2024 08:54:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 19:30:04.071531
- Title: Exploring WavLM Back-ends for Speech Spoofing and Deepfake Detection
- Title(参考訳): 音声スポーフィングとディープフェイク検出のためのWavLMバックエンド探索
- Authors: Theophile Stourbe, Victor Miara, Theo Lepage, Reda Dehak,
- Abstract要約: ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - オープンコンディションはスタンドアロンのディープフェイク(bonafide vs spoof)検出タスクで構成される。
我々は、事前訓練されたWavLMをフロントエンドモデルとして利用し、その表現を異なるバックエンド技術でプールする。
本システムでは,0.0937 minDCF,3.42% EER,0.1927 Cllr,0.1375 actDCFを実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our submitted systems to the ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - Open Condition, which consists of a stand-alone speech deepfake (bonafide vs spoof) detection task. Recently, large-scale self-supervised models become a standard in Automatic Speech Recognition (ASR) and other speech processing tasks. Thus, we leverage a pre-trained WavLM as a front-end model and pool its representations with different back-end techniques. The complete framework is fine-tuned using only the trained dataset of the challenge, similar to the close condition. Besides, we adopt data-augmentation by adding noise and reverberation using MUSAN noise and RIR datasets. We also experiment with codec augmentations to increase the performance of our method. Ultimately, we use the Bosaris toolkit for score calibration and system fusion to get better Cllr scores. Our fused system achieves 0.0937 minDCF, 3.42% EER, 0.1927 Cllr, and 0.1375 actDCF.
- Abstract(参考訳): 本稿では,ASVspoof 5 Challenge Track 1: Speech Deepfake Detection - Open Conditionについて述べる。
近年,大規模自己教師型モデルが音声認識(ASR)やその他の音声処理タスクの標準となっている。
そこで我々は,事前学習したWavLMをフロントエンドモデルとして利用し,その表現を異なるバックエンド技術でプールする。
完全なフレームワークは、クローズ条件と同様に、チャレンジのトレーニング済みデータセットのみを使用して微調整される。
さらに、MUSANノイズとRIRデータセットを用いて、ノイズと残響を追加することで、データ拡張を採用する。
また,提案手法の性能向上のためにコーデック拡張実験を行った。
最終的に、スコアキャリブレーションとシステム融合のためにBosarisツールキットを使用し、より優れたCllrスコアを得る。
本システムでは,0.0937 minDCF,3.42% EER,0.1927 Cllr,0.1375 actDCFを実現している。
関連論文リスト
- USTC-KXDIGIT System Description for ASVspoof5 Challenge [30.962424920219224]
ASVspoof5 Challenge for Track 1(音声ディープフェイク検出)とTrack 2(音声自動話者検証,SASV)に提出されたUSTC-KXDIGITシステムについて述べる。
トラック1は、潜在的な処理アルゴリズムから様々な技術的品質を示し、オープン条件とクローズ条件の両方を含んでいる。
トラック2では、トラック1からのCMシステムの使用を継続し、CNNベースのASVシステムと融合した。
この手法は閉条件で0.2814 min-aDCF、開条件で0.0756 min-aDCFを達成し、優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-03T08:28:58Z) - Cross-Domain Audio Deepfake Detection: Dataset and Analysis [11.985093463886056]
オーディオディープフェイク検出(ADD)は、個人の権利やプライバシーを侵害する合成音声の誤用を防ぐために不可欠である。
最近のゼロショット音声合成(TTS)モデルでは、単一の発話で音声をクローンできるため、高いリスクが生じる。
我々は、5つの高度なゼロショットTSモデルによって生成される300時間以上の音声データからなる新しいクロスドメインADDデータセットを構築した。
論文 参考訳(メタデータ) (2024-04-07T10:10:15Z) - Improved DeepFake Detection Using Whisper Features [2.846767128062884]
DF検出フロントエンドとしてのWhisper自動音声認識モデルの影響について検討する。
本稿では,Whisperベースの機能を用いることで,各モデルの検出精度が向上し,Equal Error Rateを21%削減することで,In-The-Wildデータセットの最近の結果を上回っていることを示す。
論文 参考訳(メタデータ) (2023-06-02T10:34:05Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models [13.456066434598155]
我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
論文 参考訳(メタデータ) (2022-03-30T01:27:39Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。