論文の概要: Boosting the Transferability of Audio Adversarial Examples with Acoustic Representation Optimization
- arxiv url: http://arxiv.org/abs/2503.19591v1
- Date: Tue, 25 Mar 2025 12:14:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:49:54.298068
- Title: Boosting the Transferability of Audio Adversarial Examples with Acoustic Representation Optimization
- Title(参考訳): 音響表現最適化を用いた音響逆数例の転送性向上
- Authors: Weifei Jin, Junjie Su, Hejia Wang, Yulin Ye, Jie Hao,
- Abstract要約: 音声表現モデルから導かれる低レベル音響特性と対向的摂動を一致させる手法を提案する。
本手法はプラグイン・アンド・プレイであり,既存の攻撃手法と統合可能である。
- 参考スコア(独自算出の注目度): 4.720552406377147
- License:
- Abstract: With the widespread application of automatic speech recognition (ASR) systems, their vulnerability to adversarial attacks has been extensively studied. However, most existing adversarial examples are generated on specific individual models, resulting in a lack of transferability. In real-world scenarios, attackers often cannot access detailed information about the target model, making query-based attacks unfeasible. To address this challenge, we propose a technique called Acoustic Representation Optimization that aligns adversarial perturbations with low-level acoustic characteristics derived from speech representation models. Rather than relying on model-specific, higher-layer abstractions, our approach leverages fundamental acoustic representations that remain consistent across diverse ASR architectures. By enforcing an acoustic representation loss to guide perturbations toward these robust, lower-level representations, we enhance the cross-model transferability of adversarial examples without degrading audio quality. Our method is plug-and-play and can be integrated with any existing attack methods. We evaluate our approach on three modern ASR models, and the experimental results demonstrate that our method significantly improves the transferability of adversarial examples generated by previous methods while preserving the audio quality.
- Abstract(参考訳): 自動音声認識(ASR)システムの普及により、敵攻撃に対する脆弱性が広く研究されている。
しかし、既存のほとんどの逆例は特定の個々のモデルで生成され、転送性に欠ける。
現実のシナリオでは、攻撃者はターゲットモデルに関する詳細な情報にアクセスできないことが多く、クエリベースの攻撃は不可能である。
この課題に対処するために、音声表現モデルから導かれる低レベル音響特性と対向的摂動を整合させる音響表現最適化手法を提案する。
提案手法は,モデル固有の高層抽象化に頼るのではなく,多様なASRアーキテクチャ間で一貫性のある基本音響表現を利用する。
これらの頑健で低レベルな表現に対して摂動を誘導するために音響的表現損失を強制することにより、音質を劣化させることなく、対向的な例のクロスモデル転送性を向上させる。
本手法はプラグイン・アンド・プレイであり,既存の攻撃手法と統合可能である。
提案手法は, 音声品質を保ちながら, 従来の手法が生成した対向例の転送性を大幅に向上することを示した。
関連論文リスト
- Adversarial Transferability in Deep Denoising Models: Theoretical Insights and Robustness Enhancement via Out-of-Distribution Typical Set Sampling [6.189440665620872]
深層学習に基づく画像認識モデルは優れた性能を示すが、ロバストネス分析の欠如は依然として重要な懸念点である。
主な問題は、これらのモデルが敵攻撃の影響を受けやすいことである。
本稿では,新たな対人防御手法であるOut-of-Distribution typical Set Smpling Training戦略を提案する。
論文 参考訳(メタデータ) (2024-12-08T13:47:57Z) - Robust VAEs via Generating Process of Noise Augmented Data [9.366139389037489]
本稿では,原データと雑音増大データ間の潜時空間のばらつきを規則化し,ロバスト性を高める新しい枠組みを提案する。
実験により,ロバスト拡張変分オートエンコーダ(RAVEN)と呼ばれるこの手法は,対向入力に対して優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2024-07-26T09:55:34Z) - Advancing Test-Time Adaptation in Wild Acoustic Test Settings [26.05732574338255]
音声信号は短期的な一貫性に従い、特別な適応戦略を必要とする。
本研究では,ASR微調整音響基礎モデルに適した新しい音響TTA法を提案する。
本手法は,様々な音環境下での既存のベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-14T06:22:08Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Universal Adversarial Defense in Remote Sensing Based on Pre-trained Denoising Diffusion Models [17.283914361697818]
深部ニューラルネットワーク(DNN)は、地球観測のための多数のAIアプリケーション(AI4EO)において重要なソリューションとして注目されている。
本稿では、リモートセンシング画像(UAD-RS)における新しいユニバーサル・ディフェンス・アプローチを提案する。
論文 参考訳(メタデータ) (2023-07-31T17:21:23Z) - Self-attention fusion for audiovisual emotion recognition with
incomplete data [103.70855797025689]
視覚的感情認識を応用したマルチモーダルデータ解析の問題点を考察する。
本稿では、生データから学習可能なアーキテクチャを提案し、その3つの変種を異なるモダリティ融合機構で記述する。
論文 参考訳(メタデータ) (2022-01-26T18:04:29Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Generalized Real-World Super-Resolution through Adversarial Robustness [107.02188934602802]
本稿では,実世界のSRに取り組むために,敵攻撃の一般化能力を活用したロバスト超解法を提案する。
我々の新しいフレームワークは、現実世界のSR手法の開発においてパラダイムシフトをもたらす。
単一のロバストモデルを使用することで、実世界のベンチマークで最先端の特殊な手法より優れています。
論文 参考訳(メタデータ) (2021-08-25T22:43:20Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Learning to Generate Noise for Multi-Attack Robustness [126.23656251512762]
対人学習は、対人摂動に対する既存の方法の感受性を回避できる手法の1つとして登場した。
安全クリティカルなアプリケーションでは、攻撃者は様々な敵を採用してシステムを騙すことができるため、これらの手法は極端に便利である。
本稿では,複数種類の攻撃に対するモデルの堅牢性を改善するために,ノイズ発生を明示的に学習するメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T10:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。