Fugu-MT 論文翻訳(概要): Zero-Query Adversarial Attack on Black-box Automatic Speech Recognition Systems

論文の概要: Zero-Query Adversarial Attack on Black-box Automatic Speech Recognition Systems

arxiv url: http://arxiv.org/abs/2406.19311v1
Date: Thu, 27 Jun 2024 16:39:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-28 13:28:34.964927
Title: Zero-Query Adversarial Attack on Black-box Automatic Speech Recognition Systems
Title（参考訳）: ブラックボックス自動音声認識システムにおけるゼロクエリアタック
Authors: Zheng Fang, Tao Wang, Lingchen Zhao, Shenyi Zhang, Bowen Li, Yunjie Ge, Qi Li, Chao Shen, Qian Wang,
Abstract要約: ブラックボックスの敵攻撃は現実世界のASRシステムに重大な脅威をもたらす。我々は、ASRシステムに対する転送ベースの敵攻撃であるZQ-Attackを提案する。オーバーザライン設定では、ZQ-Attackは21.91dBの平均信号対雑音比(SNR)で100%の成功率(SRoA)を達成する。
参考スコア（独自算出の注目度）: 27.281231584238824
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, extensive research has been conducted on the vulnerability of ASR systems, revealing that black-box adversarial example attacks pose significant threats to real-world ASR systems. However, most existing black-box attacks rely on queries to the target ASRs, which is impractical when queries are not permitted. In this paper, we propose ZQ-Attack, a transfer-based adversarial attack on ASR systems in the zero-query black-box setting. Through a comprehensive review and categorization of modern ASR technologies, we first meticulously select surrogate ASRs of diverse types to generate adversarial examples. Following this, ZQ-Attack initializes the adversarial perturbation with a scaled target command audio, rendering it relatively imperceptible while maintaining effectiveness. Subsequently, to achieve high transferability of adversarial perturbations, we propose a sequential ensemble optimization algorithm, which iteratively optimizes the adversarial perturbation on each surrogate model, leveraging collaborative information from other models. We conduct extensive experiments to evaluate ZQ-Attack. In the over-the-line setting, ZQ-Attack achieves a 100% success rate of attack (SRoA) with an average signal-to-noise ratio (SNR) of 21.91dB on 4 online speech recognition services, and attains an average SRoA of 100% and SNR of 19.67dB on 16 open-source ASRs. For commercial intelligent voice control devices, ZQ-Attack also achieves a 100% SRoA with an average SNR of 15.77dB in the over-the-air setting.
Abstract（参考訳）: 近年、ASRシステムの脆弱性に関する広範な研究が行われ、ブラックボックスの敵対的な攻撃が現実世界のASRシステムに重大な脅威をもたらすことが明らかになった。しかし、既存のブラックボックス攻撃のほとんどはターゲットのASRへのクエリに依存しており、クエリが許可されていない場合、実行不可能である。本稿では,ZQ-Attackを提案する。ZQ-Attack,ZQ-Attack,ZQ-Attack,ZQ-Attack,ZQ-Attack,ZQ-Attack。現代のASR技術の包括的レビューと分類を通じて、我々はまず様々な種類のASRを慎重に選択し、敵の例を生成する。これに続いて、ZQ-Attackは、スケールされたターゲットコマンドオーディオで対向的摂動を初期化し、有効性を保ちながら比較的知覚できない。次に,各サロゲートモデル上での対向摂動を反復的に最適化し,他のモデルからの協調情報を活用する逐次アンサンブル最適化アルゴリズムを提案する。 ZQ-Attackを評価するための広範囲な実験を行った。オンライン音声認識サービスでは、ZQ-Attackは、21.91dBの平均信号-雑音比(SNR)の攻撃成功率(SRoA)を4つのオンライン音声認識サービスで達成し、16のオープンソースASRでは平均SRoAが100%、SNRが19.67dBに達する。商用のインテリジェント音声制御装置では、ZQ-Attackは平均SNRが15.77dBのSRoAを達成する。

関連論文リスト

BiRQA: Bidirectional Robust Quality Assessment for Images [49.74447451098852]
フル参照画像品質評価(FR IQA)は、画像圧縮、復元、生成モデリングにおいて重要である。本稿では、双方向の多スケールピラミッド内で4つの高速補完特徴を処理するコンパクトFR IQA計量モデルであるBiRQAを提案する。 5つのパブリックFR IQAベンチマークでは、BiRQAは以前のSOTAモデルよりも3倍高速で動作しながら、以前の状態(SOTA)より優れ、あるいは一致している。
論文参考訳（メタデータ） (2026-02-23T20:52:56Z)
Contrastive Spectral Rectification: Test-Time Defense towards Zero-shot Adversarial Robustness of CLIP [68.44229678548298]
コントラストスペクトル整流(Contrastive Spectral Rectification, CSR)は、敵の例に対する効率的な試験時間防御である。 CSRはSOTAを18.1%上回り、AutoAttackに勝っている。 CSRは様々な視覚的タスクに幅広い適用性を示す。
論文参考訳（メタデータ） (2026-01-27T05:24:45Z)
IO-RAE: Information-Obfuscation Reversible Adversarial Example for Audio Privacy Protection [38.60913794380576]
本稿では,音声のプライバシーを守るために,IO-RAE(Information-Obfuscation Reversible Adrial Example)フレームワークを提案する。 IO-RAEは大きな言語モデルを利用して、誤解を招くがコンテキスト的に一貫性のあるコンテンツを生成する。本稿では、高周波雑音を緩和し、低周波信号をターゲットにして攻撃効果を高める累積信号攻撃手法を提案する。
論文参考訳（メタデータ） (2026-01-03T17:08:35Z)
The Silent Saboteur: Imperceptible Adversarial Attacks against Black-Box Retrieval-Augmented Generation Systems [101.68501850486179]
本稿では,RAGシステムに対する敵攻撃について検討し,その脆弱性を同定する。このタスクは、ターゲット文書を検索する非知覚的な摂動を見つけることを目的としており、もともとはトップ$k$の候補セットから除外されていた。本稿では、攻撃者とターゲットRAG間の相互作用を追跡する強化学習ベースのフレームワークであるReGENTを提案する。
論文参考訳（メタデータ） (2025-05-24T08:19:25Z)
Black-Box Adversarial Attack on Vision Language Models for Autonomous Driving [65.61999354218628]
我々は、自律運転システムにおいて、視覚言語モデル(VLM)をターゲットとしたブラックボックス敵攻撃を設計する第一歩を踏み出す。セマンティクスの生成と注入による低レベル推論の分解を目標とするカスケーディング・アディバーショナル・ディスラプション(CAD)を提案する。本稿では,高レベルリスクシナリオの理解と構築に代理VLMを活用することで,動的適応に対処するリスクシーンインジェクションを提案する。
論文参考訳（メタデータ） (2025-01-23T11:10:02Z)
Backdoor Attacks against No-Reference Image Quality Assessment Models via a Scalable Trigger [76.36315347198195]
No-Reference Image Quality Assessment (NR-IQA) はコンピュータビジョンシステムの評価と最適化において重要な役割を果たしている。近年の研究では、NR-IQAモデルが敵攻撃の影響を受けやすいことが示されている。 NR-IQA(BAIQA)に対する新規中毒性バックドアアタックを報告した。
論文参考訳（メタデータ） (2024-12-10T08:07:19Z)
Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文参考訳（メタデータ） (2024-11-14T06:32:31Z)
ALIF: Low-Cost Adversarial Audio Attacks on Black-Box Speech Platforms using Linguistic Features [25.28307679567351]
ALIFは、最初のブラックボックス対応言語機能ベースのアタックパイプラインである。本稿では,デジタルドメインと物理再生環境の両方で攻撃を開始するためのALIF-OTLおよびALIF-OTAスキームを提案する。
論文参考訳（メタデータ） (2024-08-03T15:30:16Z)
STBA: Towards Evaluating the Robustness of DNNs for Query-Limited Black-box Scenario [50.37501379058119]
本研究では,クエリ制限シナリオにおいて,悪意のある逆の例を作成するために,空間変換ブラックボックス攻撃(STBA)を提案する。そこで本研究では,STBAが対向例の認識不能性を効果的に改善し,クエリ制限条件下での攻撃成功率を大幅に向上できることを示す。
論文参考訳（メタデータ） (2024-03-30T13:28:53Z)
Watch What You Pretrain For: Targeted, Transferable Adversarial Examples on Self-Supervised Speech Recognition models [27.414693266500603]
攻撃対象の敵攻撃は、自動音声認識システムに攻撃テキストを出力させる音声サンプルを生成する。近年の研究では、大きなASRモデルに対する転送性は非常に難しいことが示されている。現代のASRアーキテクチャ、特にセルフ・スーパーバイザード・ラーニングに基づくアーキテクチャは、実際にトランスファービリティーに対して脆弱であることを示す。
論文参考訳（メタデータ） (2022-09-17T15:01:26Z)
Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition Systems [1.599072005190786]
音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
論文参考訳（メタデータ） (2021-12-03T10:21:47Z)
Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。 ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。 SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文参考訳（メタデータ） (2021-07-20T01:55:21Z)
Perceptual-based deep-learning denoiser as a defense against adversarial attacks on ASR systems [26.519207339530478]
敵対的攻撃は、元の音声信号に小さな摂動を加えることで、誤分類を強制しようとする。本稿では,ASRパイプラインのプリプロセッサとしてニューラルネットベースのデノイザを用いることで,この問題に対処することを提案する。その結果,知覚的モチベーションのある損失関数を用いて難聴者の訓練を行うことで,対向的ロバスト性が向上することが判明した。
論文参考訳（メタデータ） (2021-07-12T07:00:06Z)
Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm [93.80082636284922]
少数の敵対的攻撃は、数ピクセルを摂動するだけでディープ・ネットワーク(DNN)を騙すことができる。近年の取り組みは、他の等級のl_infty摂動と組み合わせている。本稿では,空間的・神経的摂動に対処するホモトピーアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-10T20:11:36Z)
Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文参考訳（メタデータ） (2021-03-15T01:51:41Z)
Characterizing Speech Adversarial Examples Using Self-Attention U-Net Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文参考訳（メタデータ） (2020-03-31T02:16:34Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。