論文の概要: HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System
- arxiv url: http://arxiv.org/abs/2405.15655v1
- Date: Fri, 24 May 2024 15:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 13:20:55.794913
- Title: HiddenSpeaker: Generate Imperceptible Unlearnable Audios for Speaker Verification System
- Title(参考訳): HiddenSpeaker: 話者認証システムのための、認識不能な未学習オーディオの生成
- Authors: Zhisheng Zhang, Pengyang Huang,
- Abstract要約: 学習音声サンプルに知覚不能な摂動を埋め込んだHiddenSpeakerというフレームワークを提案する。
以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の知覚能力を高めることが示唆された。
- 参考スコア(独自算出の注目度): 0.9591674293850556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the remarkable advancements in deep neural networks have brought tremendous convenience. However, the training process of a highly effective model necessitates a substantial quantity of samples, which brings huge potential threats, like unauthorized exploitation with privacy leakage. In response, we propose a framework named HiddenSpeaker, embedding imperceptible perturbations within the training speech samples and rendering them unlearnable for deep-learning-based speaker verification systems that employ large-scale speakers for efficient training. The HiddenSpeaker utilizes a simplified error-minimizing method named Single-Level Error-Minimizing (SLEM) to generate specific and effective perturbations. Additionally, a hybrid objective function is employed for human perceptual optimization, ensuring the perturbation is indistinguishable from human listeners. We conduct extensive experiments on multiple state-of-the-art (SOTA) models in the speaker verification domain to evaluate HiddenSpeaker. Our results demonstrate that HiddenSpeaker not only deceives the model with unlearnable samples but also enhances the imperceptibility of the perturbations, showcasing strong transferability across different models.
- Abstract(参考訳): 近年、ディープニューラルネットワークの顕著な進歩は、非常に便利なものになっている。
しかし、非常に効果的なモデルのトレーニングプロセスは、大量のサンプルを必要とするため、プライバシー漏洩による不正なエクスプロイトのような大きな潜在的な脅威をもたらす。
これに対し,HiddenSpeaker というフレームワークを提案する。このフレームワークは,学習用サンプルに知覚不能な摂動を埋め込んで,大規模話者を用いた効率的な訓練を行うディープラーニングベースの話者検証システムでは学習不可能である。
HiddenSpeakerは、Single-Level Error-Minimizing (SLEM)と呼ばれる単純なエラー最小化手法を使用して、特定かつ効果的な摂動を生成する。
さらに、人間の知覚的最適化にはハイブリッドな目的関数が使用され、人間の聴取者との摂動が区別できないことが保証される。
我々は、話者検証領域における複数の最先端(SOTA)モデルに関する広範な実験を行い、HiddenSpeakerを評価する。
以上の結果から,HiddenSpeakerは学習不可能なサンプルでモデルを騙すだけでなく,摂動の受容性を高め,異なるモデル間での強い伝達性を示す。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Speaker-Independent Dysarthria Severity Classification using
Self-Supervised Transformers and Multi-Task Learning [2.7706924578324665]
本研究では, 生音声データから難聴度を自動的に評価するトランスフォーマーに基づく枠組みを提案する。
話者非依存型遅発性重度分類のための多タスク学習目標とコントラスト学習を組み込んだ,話者非依存型遅発性正規化(SALR)と呼ばれるフレームワークを開発した。
我々のモデルは従来の機械学習手法よりも優れた性能を示し、精度は70.48%$、F1スコアは59.23%$である。
論文 参考訳(メタデータ) (2024-02-29T18:30:52Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning [0.0]
生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。
我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
論文 参考訳(メタデータ) (2022-07-12T13:01:55Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Extrapolating false alarm rates in automatic speaker verification [27.462672479917565]
自動話者検証(ASV)ベンダーとコーパスプロバイダはどちらも、新しい話者を集めることなく、大規模話者に対するパフォーマンス指標を確実に外挿するツールの恩恵を受けるだろう。
最悪の場合, 対象話者に最も近づいた話者に対して, 相手が最も近づいた話者を同定し, 誤報率の外挿に対処する。
私たちのモデルは生成可能であり、新しい話者をサンプリングすることができます。
論文 参考訳(メタデータ) (2020-08-08T20:31:57Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - End-to-End Neural Diarization: Reformulating Speaker Diarization as
Simple Multi-label Classification [45.38809571153867]
本稿では,ニューラルネットワークが直接話者ダイアリゼーション結果を出力するエンド・ツー・エンド・ニューラルダイアリゼーション(EEND)を提案する。
話者セグメントラベルとマルチスピーカ記録を連携させることにより,本モデルは実際の会話に容易に適応できる。
論文 参考訳(メタデータ) (2020-02-24T14:53:32Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。