論文の概要: FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances
- arxiv url: http://arxiv.org/abs/2011.08483v2
- Date: Sat, 20 Feb 2021 12:15:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 17:57:58.803648
- Title: FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances
- Title(参考訳): FoolHD:高知覚障害による話者識別
- Authors: Ali Shahin Shamsabadi, Francisco Sep\'ulveda Teixeira, Alberto Abad,
Bhiksha Raj, Andrea Cavallaro, Isabel Trancoso
- Abstract要約: 話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
- 参考スコア(独自算出の注目度): 63.80959552818541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker identification models are vulnerable to carefully designed
adversarial perturbations of their input signals that induce misclassification.
In this work, we propose a white-box steganography-inspired adversarial attack
that generates imperceptible adversarial perturbations against a speaker
identification model. Our approach, FoolHD, uses a Gated Convolutional
Autoencoder that operates in the DCT domain and is trained with a
multi-objective loss function, in order to generate and conceal the adversarial
perturbation within the original audio files. In addition to hindering speaker
identification performance, this multi-objective loss accounts for human
perception through a frame-wise cosine similarity between MFCC feature vectors
extracted from the original and adversarial audio files. We validate the
effectiveness of FoolHD with a 250-speaker identification x-vector network,
trained using VoxCeleb, in terms of accuracy, success rate, and
imperceptibility. Our results show that FoolHD generates highly imperceptible
adversarial audio files (average PESQ scores above 4.30), while achieving a
success rate of 99.6% and 99.2% in misleading the speaker identification model,
for untargeted and targeted settings, respectively.
- Abstract(参考訳): 話者識別モデルは、誤分類を引き起こす入力信号の敵対的摂動に対して慎重に設計されている。
本研究では,話者識別モデルに対する知覚不能な摂動を生成する,ホワイトボックス・ステガノグラフィにインスパイアされた敵対的攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、元のオーディオファイル内の対向的摂動を発生・隠蔽するために、多目的損失関数を用いて訓練されている。
話者識別性能の阻害に加え、この多目的損失は、元の音声ファイルから抽出したMFCC特徴ベクトルと逆音声ファイルとのフレームワイドな類似性を通して、人間の知覚に寄与する。
本稿では,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いたFoolHDの有効性を,精度,成功率,非受容性の観点から検証した。
以上の結果から,FoolHDは,話者識別モデルとターゲット設定の誤認において,それぞれ99.6%,99.2%の成功率を達成し,認識不能な音声ファイル(平均PSSQは4.30以上)を生成することがわかった。
関連論文リスト
- What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Meta-Learning Framework for End-to-End Imposter Identification in Unseen
Speaker Recognition [4.143603294943441]
未確認話者認識における不適切な識別のための固定しきい値(EERメトリックを用いた計算)を用いた一般化の問題を示す。
次に、より優れた性能を実現するために、頑健な話者特異的しきい値設定手法を導入する。
提案手法の有効性をVoxCeleb1, VCTK, FFSVC 2022データセットで示し, ベースラインを最大10%上回った。
論文 参考訳(メタデータ) (2023-06-01T17:49:58Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-30T08:54:02Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Attack on practical speaker verification system using universal
adversarial perturbations [20.38185341318529]
本研究は,提案する対人摂動を,相手が話しているときに別個の音源として演奏することにより,現実的な話者検証システムにより,相手を対象話者と誤認することを示す。
2段階のアルゴリズムが提案され、テキストに依存しない普遍的対向摂動を最適化し、認証テキスト認識にはほとんど影響を与えない。
論文 参考訳(メタデータ) (2021-05-19T09:43:34Z) - Combating Adversaries with Anti-Adversaries [118.70141983415445]
特に、我々の層は、逆の層とは反対の方向に入力摂動を生成します。
我々は,我々の階層と名目および頑健に訓練されたモデルを組み合わせることで,我々のアプローチの有効性を検証する。
我々の対向層は、クリーンな精度でコストを伴わずにモデルロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2021-03-26T09:36:59Z) - Multimodal Attention Fusion for Target Speaker Extraction [108.73502348754842]
マルチモーダル核融合のための新しい注意機構とその訓練方法を提案する。
シミュレーションデータに対する従来の核融合機構よりも,信号対歪み比(SDR)を1.0dB向上させる。
論文 参考訳(メタデータ) (2021-02-02T05:59:35Z) - Adversarially Training for Audio Classifiers [9.868221447090853]
本研究では、離散ウェーブレット変換の2次元表現をトレーニングしたResNet-56モデルにおいて、トネッツクロマグラムが認識精度で他のモデルより優れていることを示す。
2つの環境音響データセットを用いて実験を行い、敵の予算配分に制限が課されない場合、敵の訓練を受けたモデルの愚かさ率が90%を超えることを示した。
論文 参考訳(メタデータ) (2020-08-26T15:15:32Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。