論文の概要: EmoAttack: Utilizing Emotional Voice Conversion for Speech Backdoor Attacks on Deep Speech Classification Models
- arxiv url: http://arxiv.org/abs/2408.15508v2
- Date: Fri, 6 Sep 2024 07:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 17:59:54.801449
- Title: EmoAttack: Utilizing Emotional Voice Conversion for Speech Backdoor Attacks on Deep Speech Classification Models
- Title(参考訳): EmoAttack:ディープ音声分類モデルを用いた音声バックドア攻撃に対する感情音声変換の利用
- Authors: Wenhan Yao, Zedong XingXiarun Chen, Jia Liu, yongqiang He, Weiping Wen,
- Abstract要約: 音声バックドア攻撃は、音声に固有の高レベルの主観的知覚特性である感情に戦略的に焦点を合わせることができる。
エモアタック法は、衝撃的なトリガー効果と、その顕著な攻撃成功率と精度のばらつきを保有する。
- 参考スコア(独自算出の注目度): 4.164975438207411
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep speech classification tasks, mainly including keyword spotting and speaker verification, play a crucial role in speech-based human-computer interaction. Recently, the security of these technologies has been demonstrated to be vulnerable to backdoor attacks. Specifically speaking, speech samples are attacked by noisy disruption and component modification in present triggers. We suggest that speech backdoor attacks can strategically focus on emotion, a higher-level subjective perceptual attribute inherent in speech. Furthermore, we proposed that emotional voice conversion technology can serve as the speech backdoor attack trigger, and the method is called EmoAttack. Based on this, we conducted attack experiments on two speech classification tasks, showcasing that EmoAttack method owns impactful trigger effectiveness and its remarkable attack success rate and accuracy variance. Additionally, the ablation experiments found that speech with intensive emotion is more suitable to be targeted for attacks.
- Abstract(参考訳): 単語スポッティングや話者検証を含むディープ音声分類タスクは、音声に基づく人間とコンピュータの相互作用において重要な役割を果たす。
近年、これらの技術のセキュリティはバックドア攻撃に弱いことが実証されている。
具体的には、音声サンプルは、現在のトリガにおけるノイズ破壊と成分変化によって攻撃される。
音声のバックドア攻撃は、音声に固有の高レベルな主観的知覚特性である感情に戦略的に焦点を絞ることができることを示唆する。
さらに,感情音声変換技術が音声バックドア攻撃の引き金となりうることを提案し,その手法をEmoAttackと呼ぶ。
そこで本研究では,EmoAttack法が影響のあるトリガ効果と,その顕著な攻撃成功率と精度のばらつきを保有していることを示す2つの音声分類課題に対する攻撃実験を行った。
さらに、アブレーション実験では、集中的な感情を持つ音声の方が攻撃対象に適していることが判明した。
関連論文リスト
- Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。
その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-09T06:13:48Z) - STAA-Net: A Sparse and Transferable Adversarial Attack for Speech
Emotion Recognition [36.73727306933382]
本稿では,SERモデルを騙すために,スパースおよびトランスファー可能な逆数例を生成するジェネレータベースの攻撃手法を提案する。
我々は、広く使われている2つのSERデータセット、DEMoS(DemoS)とIEMOCAP(Interactive Emotional Dyadic Motion CAPture)について、本手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-02T08:46:57Z) - Revealing Emotional Clusters in Speaker Embeddings: A Contrastive
Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-19T20:31:53Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Fake the Real: Backdoor Attack on Deep Speech Classification via Voice
Conversion [14.264424889358208]
本研究は,音声変換に基づくサンプル特異的トリガを用いたバックドアアタックを探索する。
具体的には、事前に訓練された音声変換モデルを用いてトリガーを生成する。
論文 参考訳(メタデータ) (2023-06-28T02:19:31Z) - ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech
Synthesis with Diffusion and Style-based Models [83.07390037152963]
ZET-Speech はゼロショット適応型 TTS モデルである。
ユーザは、短い中性音声セグメントとターゲットの感情ラベルのみを使用して、任意の話者の感情音声を合成することができる。
実験の結果,ZET-Speechは自然音声と感情音声の合成に成功していることがわかった。
論文 参考訳(メタデータ) (2023-05-23T08:52:00Z) - Emotion Selectable End-to-End Text-based Speech Editing [63.346825713704625]
Emo-CampNet (Emotion CampNet) は感情選択可能なテキストベースの音声編集モデルである。
テキストベースの音声編集において、生成した音声の感情を効果的に制御することができる。
未知の話者のスピーチを編集することもできる。
論文 参考訳(メタデータ) (2022-12-20T12:02:40Z) - Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on
Data-Driven Deep Learning [70.30713251031052]
本研究では,データ駆動型深層学習モデル,すなわちSenseNetを提案する。
実験の結果,提案した強度ネットの予測感情強度は,目視と目視の両方の真理値と高い相関性を示した。
論文 参考訳(メタデータ) (2022-06-15T01:25:32Z) - Emotion Intensity and its Control for Emotional Voice Conversion [77.05097999561298]
感情音声変換(EVC)は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変換しようとする。
本稿では,感情の強さを明示的に表現し,制御することを目的とする。
本稿では,話者スタイルを言語内容から切り離し,連続した空間に埋め込み,感情埋め込みのプロトタイプを形成するスタイルに符号化することを提案する。
論文 参考訳(メタデータ) (2022-01-10T02:11:25Z) - Speaker Attentive Speech Emotion Recognition [11.92436948211501]
音声感情認識(SER)タスクは、DNN(Deep Neural Networks)の出現により、ここ数年で大幅に改善されました。
スピーカーのアイデンティティについて感情認識ネットワークを教えるというアイデアに基づく新しい作品を紹介します。
論文 参考訳(メタデータ) (2021-04-15T07:59:37Z) - Limited Data Emotional Voice Conversion Leveraging Text-to-Speech:
Two-stage Sequence-to-Sequence Training [91.95855310211176]
感情的音声変換は、言語内容と話者のアイデンティティを保ちながら、発話の感情状態を変えることを目的としている。
本研究では,感情音声データ量の少ない連続音声変換のための新しい2段階学習戦略を提案する。
提案フレームワークはスペクトル変換と韻律変換の両方が可能であり、客観的評価と主観評価の両方において最先端のベースラインを大幅に改善する。
論文 参考訳(メタデータ) (2021-03-31T04:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。