論文の概要: SPBA: Utilizing Speech Large Language Model for Backdoor Attacks on Speech Classification Models
- arxiv url: http://arxiv.org/abs/2506.08346v1
- Date: Tue, 10 Jun 2025 02:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.064741
- Title: SPBA: Utilizing Speech Large Language Model for Backdoor Attacks on Speech Classification Models
- Title(参考訳): SPBA:音声分類モデルを用いた音声大言語モデルを用いたバックドアアタック
- Authors: Wenhan Yao, Fen Xiao, Xiarun Chen, Jia Liu, YongQiang He, Weiping Wen,
- Abstract要約: 音声ベースの人間とコンピュータのインタラクションは、バックドア攻撃に弱い。
本稿では,音声のバックドア攻撃が,音色や感情などの音声要素に戦略的に焦点を絞ることができることを提案する。
提案された攻撃は、SPBA(Speech Prompt Backdoor Attack)と呼ばれる。
- 参考スコア(独自算出の注目度): 4.67675814519416
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Deep speech classification tasks, including keyword spotting and speaker verification, are vital in speech-based human-computer interaction. Recently, the security of these technologies has been revealed to be susceptible to backdoor attacks. Specifically, attackers use noisy disruption triggers and speech element triggers to produce poisoned speech samples that train models to become vulnerable. However, these methods typically create only a limited number of backdoors due to the inherent constraints of the trigger function. In this paper, we propose that speech backdoor attacks can strategically focus on speech elements such as timbre and emotion, leveraging the Speech Large Language Model (SLLM) to generate diverse triggers. Increasing the number of triggers may disproportionately elevate the poisoning rate, resulting in higher attack costs and a lower success rate per trigger. We introduce the Multiple Gradient Descent Algorithm (MGDA) as a mitigation strategy to address this challenge. The proposed attack is called the Speech Prompt Backdoor Attack (SPBA). Building on this foundation, we conducted attack experiments on two speech classification tasks, demonstrating that SPBA shows significant trigger effectiveness and achieves exceptional performance in attack metrics.
- Abstract(参考訳): キーワードスポッティングや話者検証を含む深層音声分類タスクは、音声に基づく人間とコンピュータの相互作用において不可欠である。
最近、これらの技術のセキュリティは、バックドア攻撃の影響を受けやすいことが判明した。
具体的には、攻撃者はノイズの多い破壊トリガーと音声要素トリガーを使用して、モデルが脆弱になるよう訓練する有毒な音声サンプルを生成する。
しかしながら、これらのメソッドは通常、トリガー関数固有の制約のため、限られた数のバックドアしか作成しない。
本稿では,音声大言語モデル(SLLM)を利用して多様なトリガを生成することによって,音色や感情などの音声要素に戦略的に焦点を絞ることができることを提案する。
トリガー数の増加は、不均等に中毒率を上昇させ、結果として攻撃コストが上昇し、トリガー当たりの成功率が低下する。
本稿では,この課題に対処するための緩和戦略として,Multiple Gradient Descent Algorithm (MGDA)を導入する。
提案された攻撃は、SPBA(Speech Prompt Backdoor Attack)と呼ばれる。
本研究は,2つの音声分類課題に対する攻撃実験を行い,SPBAが重要なトリガ効果を示し,攻撃指標の異常な性能を達成できることを実証した。
関連論文リスト
- Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。
近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。
脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Universal Acoustic Adversarial Attacks for Flexible Control of Speech-LLMs [6.8285467057172555]
音声のLLMに対するユニバーサルアコースティック・アタックについて検討する。
Qwen2-AudioとGranite-Speechには重大な脆弱性がある。
これは、より堅牢なトレーニング戦略の必要性を強調し、敵の攻撃に対する抵抗を改善している。
論文 参考訳(メタデータ) (2025-05-20T12:35:59Z) - EmoAttack: Utilizing Emotional Voice Conversion for Speech Backdoor Attacks on Deep Speech Classification Models [4.164975438207411]
音声バックドア攻撃は、音声に固有の高レベルの主観的知覚特性である感情に戦略的に焦点を合わせることができる。
エモアタック法は、衝撃的なトリガー効果と、その顕著な攻撃成功率と精度のばらつきを保有する。
論文 参考訳(メタデータ) (2024-08-28T03:36:43Z) - Does Few-shot Learning Suffer from Backdoor Attacks? [63.9864247424967]
数発の学習がバックドアアタックに対して脆弱であることは明らかです。
本手法は,FSLタスクにおける攻撃成功率(ASR)を,異なる数発の学習パラダイムで示す。
この研究は、数発の学習がまだバックドア攻撃に悩まされており、そのセキュリティに注意を払う必要があることを明らかにしている。
論文 参考訳(メタデータ) (2023-12-31T06:43:36Z) - Towards Stealthy Backdoor Attacks against Speech Recognition via
Elements of Sound [9.24846124692153]
ディープニューラルネットワーク(Deep Neural Network, DNN)は、音声認識の様々な応用に広く採用され、導入されている。
本稿では,音声認識に対する毒のみのバックドア攻撃について再検討する。
我々は音(例えば、ピッチと音色)の要素を利用して、よりステルスで効果的な毒のみのバックドア攻撃を設計する。
論文 参考訳(メタデータ) (2023-07-17T02:58:25Z) - Fake the Real: Backdoor Attack on Deep Speech Classification via Voice
Conversion [14.264424889358208]
本研究は,音声変換に基づくサンプル特異的トリガを用いたバックドアアタックを探索する。
具体的には、事前に訓練された音声変換モデルを用いてトリガーを生成する。
論文 参考訳(メタデータ) (2023-06-28T02:19:31Z) - From Shortcuts to Triggers: Backdoor Defense with Denoised PoE [51.287157951953226]
言語モデルは、しばしば多様なバックドア攻撃、特にデータ中毒の危険にさらされる。
既存のバックドア防御手法は主に明示的なトリガーによるバックドア攻撃に焦点を当てている。
我々は,様々なバックドア攻撃を防御するために,エンド・ツー・エンドアンサンブルに基づくバックドア防御フレームワークDPoEを提案する。
論文 参考訳(メタデータ) (2023-05-24T08:59:25Z) - Hidden Killer: Invisible Textual Backdoor Attacks with Syntactic Trigger [48.59965356276387]
本稿では,テキストバックドア攻撃の引き金として構文構造を用いることを提案する。
我々は、トリガーベースアタック法が同等のアタック性能を達成できることを示すため、広範囲な実験を行った。
また,本研究の結果から,テキストバックドア攻撃の重篤さと有害性も明らかとなった。
論文 参考訳(メタデータ) (2021-05-26T08:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。