論文の概要: Certification of Speaker Recognition Models to Additive Perturbations
- arxiv url: http://arxiv.org/abs/2404.18791v2
- Date: Wed, 18 Dec 2024 16:52:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:45:37.800706
- Title: Certification of Speaker Recognition Models to Additive Perturbations
- Title(参考訳): 付加摂動に対する話者認識モデルの認証
- Authors: Dmitrii Korzh, Elvir Karimov, Mikhail Pautov, Oleg Y. Rogov, Ivan Oseledets,
- Abstract要約: 対人攻撃に対する 話者認識システムの堅牢性は 重要な課題です
我々はまず,画像領域向けに開発された話者認識に頑健性認証技術を適用した。
- 参考スコア(独自算出の注目度): 4.332441337407564
- License:
- Abstract: Speaker recognition technology is applied to various tasks, from personal virtual assistants to secure access systems. However, the robustness of these systems against adversarial attacks, particularly to additive perturbations, remains a significant challenge. In this paper, we pioneer applying robustness certification techniques to speaker recognition, initially developed for the image domain. Our work covers this gap by transferring and improving randomized smoothing certification techniques against norm-bounded additive perturbations for classification and few-shot learning tasks to speaker recognition. We demonstrate the effectiveness of these methods on VoxCeleb 1 and 2 datasets for several models. We expect this work to improve the robustness of voice biometrics and accelerate the research of certification methods in the audio domain.
- Abstract(参考訳): 話者認識技術は、パーソナルバーチャルアシスタントからセキュアアクセスシステムまで、様々なタスクに応用されている。
しかし、敵対的攻撃、特に加法的摂動に対するシステムの堅牢性は依然として大きな課題である。
本稿では,画像領域向けに開発された話者認識にロバストネス認証技術を適用した先駆者について述べる。
本研究は,正規有界加法摂動に対する無作為な平滑化認証手法を話者認識に導入し改良することにより,このギャップをカバーしている。
いくつかのモデルに対して,VoxCeleb 1と2のデータセットに対して,これらの手法の有効性を示す。
本研究は,音声バイオメトリックスの堅牢性を向上し,音声領域における認証手法の研究を加速することを目的としている。
関連論文リスト
- A Closer Look at Wav2Vec2 Embeddings for On-Device Single-Channel Speech
Enhancement [16.900731393703648]
自己教師付き学習モデルは、特定の音声タスクに非常に効果的であることが判明した。
本稿では,単一チャンネル音声強調におけるSSL表現の利用について検討する。
論文 参考訳(メタデータ) (2024-03-03T02:05:17Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Meta-Learning Framework for End-to-End Imposter Identification in Unseen
Speaker Recognition [4.143603294943441]
未確認話者認識における不適切な識別のための固定しきい値(EERメトリックを用いた計算)を用いた一般化の問題を示す。
次に、より優れた性能を実現するために、頑健な話者特異的しきい値設定手法を導入する。
提案手法の有効性をVoxCeleb1, VCTK, FFSVC 2022データセットで示し, ベースラインを最大10%上回った。
論文 参考訳(メタデータ) (2023-06-01T17:49:58Z) - Open-set Adversarial Defense with Clean-Adversarial Mutual Learning [93.25058425356694]
本稿では, オープンセット認識システムは, 対向サンプルに対して脆弱であることを示す。
これらの観測により,我々はオープンセット・ディフェンス(OSAD)機構の必要性を強調した。
本稿では,OSAD問題に対する解決策として,OSDN-CAML(Create-Adversarial Mutual Learning)を用いたオープンセット防衛ネットワークを提案する。
論文 参考訳(メタデータ) (2022-02-12T02:13:55Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Adversarial Attack and Defense Strategies for Deep Speaker Recognition
Systems [44.305353565981015]
本稿では, 深層話者認識システムに対する最先端の敵攻撃について考察し, 強力な防御手法を対策として用いた。
実験により、話者認識システムは敵攻撃に弱いことが示され、最も強い攻撃はシステムの精度を94%から0%に下げることができる。
論文 参考訳(メタデータ) (2020-08-18T00:58:19Z) - SoK: The Faults in our ASRs: An Overview of Attacks against Automatic
Speech Recognition and Speaker Identification Systems [28.635467696564703]
音声と話者システムのエンドツーエンドアーキテクチャは、画像空間のそれとはかなり異なる攻撃と防御を行うことを示す。
そして、これらのモデルに対する攻撃はほとんど普遍的に転送できないことを実験的に実証した。
論文 参考訳(メタデータ) (2020-07-13T18:52:25Z) - Segment Aggregation for short utterances speaker verification using raw
waveforms [47.41124427552161]
本稿では,短い発話に対する話者検証の性能劣化を補う手法を提案する。
提案手法はアンサンブルに基づく設計を採用し,話者検証システムの安定性と精度を向上させる。
論文 参考訳(メタデータ) (2020-05-07T08:57:22Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。