論文の概要: Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks?
- arxiv url: http://arxiv.org/abs/2509.21087v1
- Date: Thu, 25 Sep 2025 12:39:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.904862
- Title: Are Modern Speech Enhancement Systems Vulnerable to Adversarial Attacks?
- Title(参考訳): 現代の音声強調システムは敵攻撃に対して脆弱か?
- Authors: Rostislav Makarov, Lea Schönherr, Timo Gerkmann,
- Abstract要約: 本研究は, 音声強調モデルに対向雑音を注入できることを示す。
予測音声強調モデルが実際にこのような方法で操作可能であることを実験的に検証する。
我々は, サンプルを用いた拡散モデルが, 設計によるこのような敵攻撃に対して, 本質的に堅牢性を示すことを強調した。
- 参考スコア(独自算出の注目度): 30.146146330834938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning approaches for speech enhancement are becoming increasingly expressive, enabling ever more powerful modifications of input signals. In this paper, we demonstrate that this expressiveness introduces a vulnerability: advanced speech enhancement models can be susceptible to adversarial attacks. Specifically, we show that adversarial noise, carefully crafted and psychoacoustically masked by the original input, can be injected such that the enhanced speech output conveys an entirely different semantic meaning. We experimentally verify that contemporary predictive speech enhancement models can indeed be manipulated in this way. Furthermore, we highlight that diffusion models with stochastic samplers exhibit inherent robustness to such adversarial attacks by design.
- Abstract(参考訳): 音声強調のための機械学習アプローチは、ますます表現力を高め、入力信号のより強力な修正を可能にしている。
本稿では,この表現力に脆弱性があることを実証する。
具体的には、元の入力によって注意深く構成され、精神音響的に隠蔽された敵対的雑音を、拡張された音声出力が全く異なる意味を伝達するように注入できることを示す。
我々は,現代予測音声強調モデルが実際にこのような方法で操作可能であることを実験的に検証した。
さらに,確率的サンプルを用いた拡散モデルでは,このような対角攻撃に対して,設計によるロバスト性を示すことが強調された。
関連論文リスト
- A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - Towards Better Disentanglement in Non-Autoregressive Zero-Shot Expressive Voice Conversion [53.26424100244925]
表現的音声変換は、話者識別と表現的属性の両方を対象音声から所定の音源音声に転送することを目的としている。
本研究では,条件付き変分オートエンコーダを用いた自己監督型非自己回帰型フレームワークを改良する。
論文 参考訳(メタデータ) (2025-06-04T14:42:12Z) - Universal Acoustic Adversarial Attacks for Flexible Control of Speech-LLMs [6.8285467057172555]
音声のLLMに対するユニバーサルアコースティック・アタックについて検討する。
Qwen2-AudioとGranite-Speechには重大な脆弱性がある。
これは、より堅牢なトレーニング戦略の必要性を強調し、敵の攻撃に対する抵抗を改善している。
論文 参考訳(メタデータ) (2025-05-20T12:35:59Z) - DiffuseDef: Improved Robustness to Adversarial Attacks via Iterative Denoising [35.10201243366131]
DiffuseDefは、言語分類タスクのための新しい敵防御手法である。
拡散層をエンコーダと分類器の間のデノイザとして組み込む。
これは、一般的なブラックボックスやホワイトボックスの敵攻撃に対して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-28T22:36:17Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - Adversarial Counterfactual Visual Explanations [0.7366405857677227]
本稿では,敵攻撃を意味論的に意味のある摂動に変換するエレガントな手法を提案する。
提案手法は,拡散確率モデルが高周波および分布外摂動を回避するための優れた正則化器であることを仮定する。
論文 参考訳(メタデータ) (2023-03-17T13:34:38Z) - Conditional Diffusion Probabilistic Model for Speech Enhancement [101.4893074984667]
本稿では,観測された雑音の音声信号の特徴を拡散・逆過程に組み込む新しい音声強調アルゴリズムを提案する。
本実験では, 代表的な生成モデルと比較して, 提案手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-10T18:58:01Z) - Towards Defending against Adversarial Examples via Attack-Invariant
Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
敵の強靭性は、敵の例を利用して改善することができる。
目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文 参考訳(メタデータ) (2021-06-09T12:49:54Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。