論文の概要: STAA-Net: A Sparse and Transferable Adversarial Attack for Speech
Emotion Recognition
- arxiv url: http://arxiv.org/abs/2402.01227v1
- Date: Fri, 2 Feb 2024 08:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 16:15:28.729791
- Title: STAA-Net: A Sparse and Transferable Adversarial Attack for Speech
Emotion Recognition
- Title(参考訳): STAA-Net: 音声認識のためのスパース・トランスファー可能な敵対攻撃
- Authors: Yi Chang, Zhao Ren, Zixing Zhang, Xin Jing, Kun Qian, Xi Shao, Bin Hu,
Tanja Schultz, Bj\"orn W. Schuller
- Abstract要約: 本稿では,SERモデルを騙すために,スパースおよびトランスファー可能な逆数例を生成するジェネレータベースの攻撃手法を提案する。
我々は、広く使われている2つのSERデータセット、DEMoS(DemoS)とIEMOCAP(Interactive Emotional Dyadic Motion CAPture)について、本手法の評価を行った。
- 参考スコア(独自算出の注目度): 36.73727306933382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech contains rich information on the emotions of humans, and Speech
Emotion Recognition (SER) has been an important topic in the area of
human-computer interaction. The robustness of SER models is crucial,
particularly in privacy-sensitive and reliability-demanding domains like
private healthcare. Recently, the vulnerability of deep neural networks in the
audio domain to adversarial attacks has become a popular area of research.
However, prior works on adversarial attacks in the audio domain primarily rely
on iterative gradient-based techniques, which are time-consuming and prone to
overfitting the specific threat model. Furthermore, the exploration of sparse
perturbations, which have the potential for better stealthiness, remains
limited in the audio domain. To address these challenges, we propose a
generator-based attack method to generate sparse and transferable adversarial
examples to deceive SER models in an end-to-end and efficient manner. We
evaluate our method on two widely-used SER datasets, Database of Elicited Mood
in Speech (DEMoS) and Interactive Emotional dyadic MOtion CAPture (IEMOCAP),
and demonstrate its ability to generate successful sparse adversarial examples
in an efficient manner. Moreover, our generated adversarial examples exhibit
model-agnostic transferability, enabling effective adversarial attacks on
advanced victim models.
- Abstract(参考訳): 音声には人間の感情に関する豊富な情報が含まれており、音声感情認識(ser)は人間とコンピュータの相互作用の分野で重要な話題となっている。
serモデルの堅牢性は、特にプライバシに敏感で信頼性を要求されるプライベートヘルスケアのようなドメインにおいて重要である。
近年,オーディオ領域における深層ニューラルネットワークの悪意ある攻撃に対する脆弱性が広く研究されている。
しかしながら、オーディオ領域における敵対的攻撃に対する先行的な取り組みは、主に反復的な勾配に基づくテクニックに依存している。
さらに、よりステルス性が高い可能性を持つスパース摂動の探索は、音声領域において制限されている。
これらの課題に対処するため,我々は,エンドツーエンドかつ効率的な方法でサーモデルを欺くために,スパースかつ転送可能な攻撃例を生成するジェネレータベースの攻撃手法を提案する。
本研究では,広く利用されている2つのSERデータセット(DEMoS)とIEMOCAP(Interactive Emotional Dyadic Motion CAPture)について評価を行い,その効率よくスパース対向例を生成する能力を示した。
さらに,本生成例では,モデル非依存的転送性を示し,高度な犠牲者モデルに対する効果的な攻撃を可能にする。
関連論文リスト
- DiffuseDef: Improved Robustness to Adversarial Attacks [38.34642687239535]
敵の攻撃は、事前訓練された言語モデルを使って構築されたシステムにとって重要な課題となる。
本稿では,拡散層をエンコーダと分類器のデノイザとして組み込んだDiffuseDefを提案する。
推測中、敵対的隠蔽状態はまずサンプルノイズと組み合わせられ、次に反復的に復調され、最後にアンサンブルされ、堅牢なテキスト表現が生成される。
論文 参考訳(メタデータ) (2024-06-28T22:36:17Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Defense Against Adversarial Attacks on Audio DeepFake Detection [0.4511923587827302]
Audio DeepFakes (DF) は、ディープラーニングを用いて人工的に生成された発話である。
脅威を防ぐために、生成された音声を検出する複数のニューラルネットワークベースの手法が提案されている。
論文 参考訳(メタデータ) (2022-12-30T08:41:06Z) - Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning [7.387631194438338]
DARE-GPは、音声の書き起こし関連部分を保存しながら、ユーザの感情情報を隠蔽する付加的なノイズを生成するソリューションである。
DARE-GPは、既存の作品と異なり、a) 音声の書き起こしを保護しながら、(b) 未確認のブラックボックスのSER分類器に対して、(b) 音の聞こえない発話をリアルタイムに保護し、(c) 声の書き起こしを現実的に音響的に保護する。
論文 参考訳(メタデータ) (2022-11-17T00:25:05Z) - Robust Federated Learning Against Adversarial Attacks for Speech Emotion
Recognition [12.024098046435796]
音声データは、インターネット・オブ・シング・アプリケーションのサーバにアップロードされ、処理されると保護できない。
ディープニューラルネットワークは、人間と区別できない敵の摂動に弱いことが証明されている。
本稿では,データと深層ニューラルネットワークの両方を保護するための新しい対角学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T13:19:26Z) - Modelling Adversarial Noise for Adversarial Defense [96.56200586800219]
敵の防御は、通常、敵の音を除去したり、敵の頑強な目標モデルを訓練するために、敵の例を活用することに焦点を当てる。
逆データと自然データの関係は、逆データからクリーンデータを推測し、最終的な正しい予測を得るのに役立ちます。
本研究では, ラベル空間の遷移関係を学習するために, 逆方向の雑音をモデル化し, 逆方向の精度を向上させることを目的とした。
論文 参考訳(メタデータ) (2021-09-21T01:13:26Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Removing Adversarial Noise in Class Activation Feature Space [160.78488162713498]
クラスアクティベーション機能空間において,自己監視型対人訓練機構を実装することにより,対人雑音の除去を提案する。
クラスアクティベーション機能空間における敵対例と自然な例の間の距離を最小にするために、デノイジングモデルを訓練する。
経験的評価により, 従来の手法と比較して, 敵対的堅牢性が有意に向上できることが示された。
論文 参考訳(メタデータ) (2021-04-19T10:42:24Z) - Adversarial Attack and Defense Strategies for Deep Speaker Recognition
Systems [44.305353565981015]
本稿では, 深層話者認識システムに対する最先端の敵攻撃について考察し, 強力な防御手法を対策として用いた。
実験により、話者認識システムは敵攻撃に弱いことが示され、最も強い攻撃はシステムの精度を94%から0%に下げることができる。
論文 参考訳(メタデータ) (2020-08-18T00:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。