論文の概要: Anti-Spoofing Using Transfer Learning with Variational Information
Bottleneck
- arxiv url: http://arxiv.org/abs/2204.01387v1
- Date: Mon, 4 Apr 2022 11:08:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 17:27:34.655808
- Title: Anti-Spoofing Using Transfer Learning with Variational Information
Bottleneck
- Title(参考訳): 変分情報付き伝達学習を用いたアンチスプーフィング
- Authors: Youngsik Eom, Yeonghyeon Lee, Ji Sub Um, Hoirin Kim
- Abstract要約: 本稿では,音声のアンチ・スプーフィングタスクのための変動情報ボトルネックを持つwav2vec 2.0事前学習モデルに基づく伝達学習手法を提案する。
提案手法は,現在最先端のアンチ・スプーフィングシステムよりも優れており,未知のスプーフィングと真正の音声を区別する性能を向上させる。
- 参考スコア(独自算出の注目度): 6.918364447822298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in sophisticated synthetic speech generated from
text-to-speech (TTS) or voice conversion (VC) systems cause threats to the
existing automatic speaker verification (ASV) systems. Since such synthetic
speech is generated from diverse algorithms, generalization ability with using
limited training data is indispensable for a robust anti-spoofing system. In
this work, we propose a transfer learning scheme based on the wav2vec 2.0
pretrained model with variational information bottleneck (VIB) for speech
anti-spoofing task. Evaluation on the ASVspoof 2019 logical access (LA)
database shows that our method improves the performance of distinguishing
unseen spoofed and genuine speech, outperforming current state-of-the-art
anti-spoofing systems. Furthermore, we show that the proposed system improves
performance in low-resource and cross-dataset settings of anti-spoofing task
significantly, demonstrating that our system is also robust in terms of data
size and data distribution.
- Abstract(参考訳): テキスト音声合成(TTS)や音声変換(VC)システムから発生する高度な合成音声の最近の進歩は、既存の自動話者検証(ASV)システムに脅威をもたらす。
このような合成音声は多様なアルゴリズムから生成されるため、堅牢なアンチスプーフィングシステムには、限られた訓練データを用いた一般化能力が不可欠である。
本稿では,音声のアンチ・スプーフィングタスクのための変動情報ボトルネック(VIB)を用いたwav2vec 2.0事前学習モデルに基づく伝達学習手法を提案する。
ASVspoof 2019 論理アクセス (LA) データベースの評価から,本手法は未確認のスプーフと真の音声の識別性能を向上し,現在最先端のアンチスプーフシステムよりも優れていた。
さらに,本システムでは,データサイズやデータ分散の面でもロバストであることを示すとともに,低リソースおよびクロスデータセットのアンチスプーフィングタスクの性能を著しく向上することを示す。
関連論文リスト
- Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples [33.445126880876415]
自動話者検証システムに到達させる代わりに、スプーフ攻撃をフィルタリングする信頼性と堅牢なスプーフ検出システムを提案する。
データ不均衡問題に対処するために重み付き加法的角縁損失が提案され、スプーフィング攻撃に対する一般化を改善するために異なるマージンが割り当てられている。
データ拡張戦略として、スプーフィング音声に知覚不能な摂動を加えて、敵の例にのみ対応する正規化統計が実行されることを保証するために、補助的なバッチ正規化を用いる。
論文 参考訳(メタデータ) (2024-08-23T19:26:54Z) - Audio Anti-spoofing Using a Simple Attention Module and Joint
Optimization Based on Additive Angular Margin Loss and Meta-learning [43.519717601587864]
本研究では,畳み込み層における特徴写像に対する3次元の注意重みを推定するための単純な注意モジュールを提案する。
2進分類のための重み付き加法的角縁損失に基づく共同最適化手法を提案する。
提案手法は, プールEERが0.99%, min t-DCFが0.0289。
論文 参考訳(メタデータ) (2022-11-17T21:25:29Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Simple and Effective Unsupervised Speech Translation [68.25022245914363]
ラベル付きデータなしで音声翻訳システムを構築するための,シンプルで効果的な手法について検討する。
事前学習された音声モデルに対する教師なし領域適応手法を提案する。
実験により、教師なし音声からテキストへの翻訳は、それまでの教師なし状態よりも優れていたことが示されている。
論文 参考訳(メタデータ) (2022-10-18T22:26:13Z) - ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Mitigating Closed-model Adversarial Examples with Bayesian Neural
Modeling for Enhanced End-to-End Speech Recognition [18.83748866242237]
厳密で実証的な「閉モデル対逆ロバスト性」の設定に焦点を当てる。
本稿では,ベイズニューラルネットワーク(BNN)を用いた対角検出器を提案する。
検出率を+2.77から+5.42%(相対+3.03から+6.26%)に改善し、単語エラー率をLibriSpeechデータセットで5.02から7.47%に下げる。
論文 参考訳(メタデータ) (2022-02-17T09:17:58Z) - Optimizing Tandem Speaker Verification and Anti-Spoofing Systems [45.66319648049384]
本稿では,t-DCFの微分可能なバージョンを作成し,強化学習の手法を用いてタンデムシステムを直接最適化することを提案する。
この手法は,ASVSpoof19データセットにおけるt-DCFの相対的改善率を20%向上させる。
論文 参考訳(メタデータ) (2022-01-24T14:27:28Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Investigating Robustness of Adversarial Samples Detection for Automatic
Speaker Verification [78.51092318750102]
本研究は,ASVシステムに対して,別個の検出ネットワークによる敵攻撃から防御することを提案する。
VGGライクな二分分類検出器を導入し、対向サンプルの検出に有効であることが実証された。
論文 参考訳(メタデータ) (2020-06-11T04:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。