論文の概要: DUAP: Dual-task Universal Adversarial Perturbations Against Voice Control Systems
- arxiv url: http://arxiv.org/abs/2601.12786v1
- Date: Mon, 19 Jan 2026 07:39:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.791251
- Title: DUAP: Dual-task Universal Adversarial Perturbations Against Voice Control Systems
- Title(参考訳): DUAP:音声制御システムに対するデュアルタスクのユニバーサル・アドバイザリ・パーバベーション
- Authors: Suyang Sun, Weifei Jin, Yuxin Cao, Wei Song, Jie Hao,
- Abstract要約: 我々はDual-task Universal Adversarial Perturbation (DUAP)を提案する。
DUAPは、ASR転写を効果的に破壊する目的を目標とし、様々なSRモデル間での転写可能性を高めるための動的正規化アンサンブル(DNE)戦略を導入している。
5つのASRモデルと6つのSRモデルにわたる広範囲な評価は、DUAPが高い同時攻撃成功率と優れた非受容性を達成していることを示している。
- 参考スコア(独自算出の注目度): 10.342045511863288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Voice Control Systems (VCS) rely on the collaboration of Automatic Speech Recognition (ASR) and Speaker Recognition (SR) for secure interaction. However, prior adversarial attacks typically target these tasks in isolation, overlooking the coupled decision pipeline in real-world scenarios. Consequently, single-task attacks often fail to pose a practical threat. To fill this gap, we first utilize gradient analysis to reveal that ASR and SR exhibit no inherent conflicts. Building on this, we propose Dual-task Universal Adversarial Perturbation (DUAP). Specifically, DUAP employs a targeted surrogate objective to effectively disrupt ASR transcription and introduces a Dynamic Normalized Ensemble (DNE) strategy to enhance transferability across diverse SR models. Furthermore, we incorporate psychoacoustic masking to ensure perturbation imperceptibility. Extensive evaluations across five ASR and six SR models demonstrate that DUAP achieves high simultaneous attack success rates and superior imperceptibility, significantly outperforming existing single-task baselines.
- Abstract(参考訳): 現代の音声制御システム(VCS)は、セキュアな対話のために、音声認識(ASR)と話者認識(SR)の協力に依存している。
しかし、事前の敵攻撃は通常、現実のシナリオで結合された決定パイプラインを見渡すことで、これらのタスクを分離してターゲットとします。
その結果、シングルタスク攻撃は実際的な脅威を起こさないことが多い。
このギャップを埋めるために、我々はまず勾配解析を用いて、ASRとSRに固有の矛盾がないことを明らかにする。
そこで我々はDual-task Universal Adversarial Perturbation (DUAP)を提案する。
特に、DUAPはASR転写を効果的に破壊するために標的サロゲートの目的を採用し、様々なSRモデル間での転写可能性を高めるための動的正規化アンサンブル(DNE)戦略を導入している。
さらに,精神音響マスキングを取り入れて摂動障害の予防を図る。
5つのASRモデルと6つのSRモデルにわたる広範囲な評価により、DUAPは高い同時攻撃成功率と優れた非受容性を達成し、既存のシングルタスクベースラインを著しく上回ります。
関連論文リスト
- MORE: Multi-Objective Adversarial Attacks on Speech Recognition [39.77140497042348]
Whisperのような大規模自動音声認識(ASR)モデルは、様々な現実世界のアプリケーションで採用を広げている。
したがって、小さな入力の摂動に対する堅牢性は、リアルタイム環境における信頼性の高い性能を維持するために重要である。
認識精度と推論効率を両立させる多目的反復倍増促進攻撃MOREを導入する。
論文 参考訳(メタデータ) (2026-01-05T07:27:57Z) - Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。
Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。
本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-13T03:56:40Z) - Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。
このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。
本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文 参考訳(メタデータ) (2025-05-24T08:19:25Z) - Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control [60.35553925189286]
本稿では,標準のASRアーキテクチャを頼りながら,両タスクを協調的に解決するトランスフォーマーベースのジョイントASR-SRDシステムを提案する。
複数のATCデータセット上でのASRとSRDの2つのケースドアプローチとの比較を行った。
論文 参考訳(メタデータ) (2024-06-19T21:11:01Z) - Watch What You Pretrain For: Targeted, Transferable Adversarial Examples
on Self-Supervised Speech Recognition models [27.414693266500603]
攻撃対象の敵攻撃は、自動音声認識システムに攻撃テキストを出力させる音声サンプルを生成する。
近年の研究では、大きなASRモデルに対する転送性は非常に難しいことが示されている。
現代のASRアーキテクチャ、特にセルフ・スーパーバイザード・ラーニングに基づくアーキテクチャは、実際にトランスファービリティーに対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-09-17T15:01:26Z) - Sequential Randomized Smoothing for Adversarially Robust Speech
Recognition [26.96883887938093]
我々の最強の防御力は、難聴のノイズを使用する全ての攻撃に対して堅牢であり、非常に高い歪みでしか破壊できないことを示す。
本稿では, 摂動に頑健なASRモデルを設計するために, 拡張やROVER投票といった音声固有のツールを活用することで, これらの課題を克服する。
論文 参考訳(メタデータ) (2021-11-05T21:51:40Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。