論文の概要: SAMO: Speaker Attractor Multi-Center One-Class Learning for Voice
Anti-Spoofing
- arxiv url: http://arxiv.org/abs/2211.02718v1
- Date: Fri, 4 Nov 2022 19:31:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 19:07:40.061602
- Title: SAMO: Speaker Attractor Multi-Center One-Class Learning for Voice
Anti-Spoofing
- Title(参考訳): SAMO:音声アンチスプーフィングのためのマルチセンターワンクラス学習
- Authors: Siwen Ding, You Zhang, Zhiyao Duan
- Abstract要約: アンチスプーフィングシステムは、自動話者検証(ASV)システムにとって重要な補助装置である。
本稿では,複数の話者を引き付けるために,ボナ・フェイド音声をクラスタリングする話者誘引型マルチセンター一級学習(SAMO)を提案する。
提案システムは,ASVspoof 2019 LA評価セットにおいて,EER(等誤差率)が38%向上し,既存の最先端シングルシステムよりも優れていた。
- 参考スコア(独自算出の注目度): 22.47152800242178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice anti-spoofing systems are crucial auxiliaries for automatic speaker
verification (ASV) systems. A major challenge is caused by unseen attacks
empowered by advanced speech synthesis technologies. Our previous research on
one-class learning has improved the generalization ability to unseen attacks by
compacting the bona fide speech in the embedding space. However, such
compactness lacks consideration of the diversity of speakers. In this work, we
propose speaker attractor multi-center one-class learning (SAMO), which
clusters bona fide speech around a number of speaker attractors and pushes away
spoofing attacks from all the attractors in a high-dimensional embedding space.
For training, we propose an algorithm for the co-optimization of bona fide
speech clustering and bona fide/spoof classification. For inference, we propose
strategies to enable anti-spoofing for speakers without enrollment. Our
proposed system outperforms existing state-of-the-art single systems with a
relative improvement of 38% on equal error rate (EER) on the ASVspoof2019 LA
evaluation set.
- Abstract(参考訳): 音声アンチスプーフィングシステムは、自動話者検証(ASV)システムにとって重要な補助装置である。
大きな課題は、高度な音声合成技術によって強化された目に見えない攻撃によって引き起こされる。
1クラス学習に関するこれまでの研究により,埋め込み空間におけるボナfide音声の圧縮により,攻撃を検知する一般化能力が向上した。
しかし、そのようなコンパクトさは話者の多様性を考慮しない。
そこで本研究では,複数の話者を引き付け,高次元埋め込み空間内のすべての話者からの強迫的攻撃を回避し,ボナ・フェイド音声をクラスタリングする話者誘引型一級学習(SAMO)を提案する。
学習のために,bona fide音声クラスタリングとbona fide/spoof分類の共最適化アルゴリズムを提案する。
提案手法は,話者のスプーフィングを無登録で実現するための戦略である。
提案システムは, ASVspoof2019 LA 評価セットにおいて, 等価誤差率 (EER) を相対的に38%向上させ, 既存の最先端システムよりも優れていた。
関連論文リスト
- Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - U-vectors: Generating clusterable speaker embedding from unlabeled data [0.0]
本稿では,未ラベルデータを扱う話者認識戦略を提案する。
小さな固定サイズの音声フレームからクラスタブルな埋め込みベクトルを生成する。
提案手法はペアワイズアーキテクチャを用いて優れた性能を実現する。
論文 参考訳(メタデータ) (2021-02-07T18:00:09Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Adversarial Attack and Defense Strategies for Deep Speaker Recognition
Systems [44.305353565981015]
本稿では, 深層話者認識システムに対する最先端の敵攻撃について考察し, 強力な防御手法を対策として用いた。
実験により、話者認識システムは敵攻撃に弱いことが示され、最も強い攻撃はシステムの精度を94%から0%に下げることができる。
論文 参考訳(メタデータ) (2020-08-18T00:58:19Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。