論文の概要: Symmetric Saliency-based Adversarial Attack To Speaker Identification
- arxiv url: http://arxiv.org/abs/2210.16777v1
- Date: Sun, 30 Oct 2022 08:54:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 19:58:15.330538
- Title: Symmetric Saliency-based Adversarial Attack To Speaker Identification
- Title(参考訳): 対称性に基づく話者識別に対する対立攻撃
- Authors: Jiadi Yao, Xing Chen, Xiao-Lei Zhang, Wei-Qiang Zhang and Kunde Yang
- Abstract要約: 我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
- 参考スコア(独自算出の注目度): 17.087523686496958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attack approaches to speaker identification either need high
computational cost or are not very effective, to our knowledge. To address this
issue, in this paper, we propose a novel generation-network-based approach,
called symmetric saliency-based encoder-decoder (SSED), to generate adversarial
voice examples to speaker identification. It contains two novel components.
First, it uses a novel saliency map decoder to learn the importance of speech
samples to the decision of a targeted speaker identification system, so as to
make the attacker focus on generating artificial noise to the important
samples. It also proposes an angular loss function to push the speaker
embedding far away from the source speaker. Our experimental results
demonstrate that the proposed SSED yields the state-of-the-art performance,
i.e. over 97% targeted attack success rate and a signal-to-noise level of over
39 dB on both the open-set and close-set speaker identification tasks, with a
low computational cost.
- Abstract(参考訳): 話者識別に対する敵対的攻撃アプローチは高い計算コストを必要とするか、あるいは我々の知識にはあまり効果がない。
本稿では,この問題を解決するために,ssed(symmetric saliency-based encoder-decoder)と呼ばれる,話者識別のための逆音声サンプルを生成する新しい生成ネットワークベースの手法を提案する。
2つの新しい要素を含んでいる。
まず, 話者識別システムにおいて, 音声サンプルの重要性を学習するために, 新たなサリエンシーマップデコーダを用い, 被攻撃者が重要なサンプルに対する人工雑音生成に焦点をあてるようにした。
また、スピーカーをソーススピーカーから遠ざける角損失関数も提案している。
実験の結果,提案したSSEDは,97%以上の目標攻撃成功率,39dB以上の信号対雑音レベルを高い計算コストで達成できることがわかった。
関連論文リスト
- LocSelect: Target Speaker Localization with an Auditory Selective
Hearing Mechanism [45.90677498529653]
選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。
提案するネットワークLocSelectは平均絶対誤差(MAE)が3.55で精度(ACC)が87.40%である。
論文 参考訳(メタデータ) (2023-10-16T15:19:05Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition
Systems [1.599072005190786]
音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。
ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。
本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T10:21:47Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z) - Integrated Replay Spoofing-aware Text-independent Speaker Verification [47.41124427552161]
本稿では,話者認証と提示攻撃検出の統合システムを構築するための2つのアプローチを提案する。
第1のアプローチは、話者識別、提示攻撃検出、マルチタスク学習を用いた統合システムとを同時に訓練する。
本稿では、話者検証と提示攻撃検出に分離されたディープニューラルネットワーク(DNN)を用いたバックエンドモジュール方式を提案する。
論文 参考訳(メタデータ) (2020-06-10T01:24:55Z) - Detecting Adversarial Examples for Speech Recognition via Uncertainty
Quantification [21.582072216282725]
機械学習システム、特に自動音声認識(ASR)システムは、敵の攻撃に対して脆弱である。
本稿では,ハイブリッドASRシステムに着目し,攻撃時の不確実性を示す能力に関する4つの音響モデルを比較した。
我々は、受信演算子曲線スコア0.99以上の領域の逆例を検出することができる。
論文 参考訳(メタデータ) (2020-05-24T19:31:02Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。