論文の概要: MORE: Multi-Objective Adversarial Attacks on Speech Recognition
- arxiv url: http://arxiv.org/abs/2601.01852v1
- Date: Mon, 05 Jan 2026 07:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.83905
- Title: MORE: Multi-Objective Adversarial Attacks on Speech Recognition
- Title(参考訳): MORE: 音声認識における多目的対立攻撃
- Authors: Xiaoxue Gao, Zexin Li, Yiming Chen, Nancy F. Chen,
- Abstract要約: Whisperのような大規模自動音声認識(ASR)モデルは、様々な現実世界のアプリケーションで採用を広げている。
したがって、小さな入力の摂動に対する堅牢性は、リアルタイム環境における信頼性の高い性能を維持するために重要である。
認識精度と推論効率を両立させる多目的反復倍増促進攻撃MOREを導入する。
- 参考スコア(独自算出の注目度): 39.77140497042348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of large-scale automatic speech recognition (ASR) models such as Whisper has greatly expanded their adoption across diverse real-world applications. Ensuring robustness against even minor input perturbations is therefore critical for maintaining reliable performance in real-time environments. While prior work has mainly examined accuracy degradation under adversarial attacks, robustness with respect to efficiency remains largely unexplored. This narrow focus provides only a partial understanding of ASR model vulnerabilities. To address this gap, we conduct a comprehensive study of ASR robustness under multiple attack scenarios. We introduce MORE, a multi-objective repetitive doubling encouragement attack, which jointly degrades recognition accuracy and inference efficiency through a hierarchical staged repulsion-anchoring mechanism. Specifically, we reformulate multi-objective adversarial optimization into a hierarchical framework that sequentially achieves the dual objectives. To further amplify effectiveness, we propose a novel repetitive encouragement doubling objective (REDO) that induces duplicative text generation by maintaining accuracy degradation and periodically doubling the predicted sequence length. Overall, MORE compels ASR models to produce incorrect transcriptions at a substantially higher computational cost, triggered by a single adversarial input. Experiments show that MORE consistently yields significantly longer transcriptions while maintaining high word error rates compared to existing baselines, underscoring its effectiveness in multi-objective adversarial attack.
- Abstract(参考訳): Whisperのような大規模自動音声認識(ASR)モデルの出現は、様々な現実世界のアプリケーションで広く採用されている。
したがって、小さな入力摂動に対しても堅牢性を確保することは、リアルタイム環境における信頼性の高い性能を維持する上で重要である。
従来の研究は敵攻撃による精度劣化を主に検討してきたが、効率性に対する堅牢性は未解明のままである。
この狭い焦点は、ASRモデルの脆弱性を部分的に理解するだけである。
このギャップに対処するため、我々は複数の攻撃シナリオ下でASRの堅牢性について包括的に研究する。
我々は,多目的反復倍増促進攻撃であるMOREを導入し,階層的な段階的退避機構によって認識精度と推論効率を両立させる。
具体的には,多目的対角最適化を階層的なフレームワークに再構成し,2つの目的を逐次達成する。
さらに有効性を高めるために、予測シーケンス長を周期的に2倍にすることで、重複テキスト生成を誘導する新しい反復促進目標(REDO)を提案する。
全体としてMOREは、単一の逆入力によって引き起こされる計算コストを大幅に高めるために、不正な書き起こしを生成するためにASRモデルを補完する。
実験により、MOREは既存のベースラインと比較して高い単語誤り率を維持しつつ、非常に長い転写を持続的に引き起こすことが示され、多目的逆行攻撃におけるその効果を裏付けている。
関連論文リスト
- Debiased Dual-Invariant Defense for Adversarially Robust Person Re-Identification [52.63017280231648]
人物再識別(ReID)は、歩行者軌道追跡などの現実の多くの応用において、基本的な課題である。
Person ReIDモデルは、歩行者画像に対する知覚不能な摂動が完全に誤った予測を引き起こすような、敵の攻撃に非常に敏感である。
本稿では,2つの相からなる二重不変防衛フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-13T03:56:40Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - PromptSleuth: Detecting Prompt Injection via Semantic Intent Invariance [10.105673138616483]
大規模言語モデル(LLM)は、仮想アシスタントから自律エージェントに至るまで、現実のアプリケーションにますます統合されている。
攻撃者がパラフレーズ、難読化、マルチタスクのインジェクション戦略で進化するにつれて、既存のベンチマークは、出現する脅威の全スペクトルを捉えるのに十分ではない。
PromptSleuthは,表面的特徴ではなくタスクレベルの意図を推論することで,迅速なインジェクションを検出するセマンティック指向の防衛フレームワークである。
論文 参考訳(メタデータ) (2025-08-28T15:19:07Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Multi-objective Evolutionary Search of Variable-length Composite
Semantic Perturbations [1.9100854225243937]
可変長複合意味摂動(MES-VCSP)の多目的進化探索法を提案する。
MES-VCSPは、高い攻撃成功率、より自然性、より少ない時間コストで敵の例を得ることができる。
論文 参考訳(メタデータ) (2023-07-13T04:08:16Z) - LEAT: Towards Robust Deepfake Disruption in Real-World Scenarios via
Latent Ensemble Attack [11.764601181046496]
生成モデルによって作成された悪意のある視覚コンテンツであるディープフェイクは、社会にますます有害な脅威をもたらす。
近年のディープフェイクの損傷を積極的に軽減するために, 逆方向の摂動を用いてディープフェイクモデルの出力を妨害する研究が進められている。
そこで本研究では,Latent Ensemble ATtack (LEAT) と呼ばれる簡易かつ効果的なディスラプション手法を提案する。
論文 参考訳(メタデータ) (2023-07-04T07:00:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。