論文の概要: PhantomSound: Black-Box, Query-Efficient Audio Adversarial Attack via
Split-Second Phoneme Injection
- arxiv url: http://arxiv.org/abs/2309.06960v1
- Date: Wed, 13 Sep 2023 13:50:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:12:35.708774
- Title: PhantomSound: Black-Box, Query-Efficient Audio Adversarial Attack via
Split-Second Phoneme Injection
- Title(参考訳): PhantomSound: 分割音素注入によるブラックボックス、クエリ効率の良いオーディオアドバイザリアタック
- Authors: Hanqing Guo, Guangjing Wang, Yuanda Wang, Bocheng Chen, Qiben Yan, Li
Xiao
- Abstract要約: PhantomSoundは、音声アシスタントに対するクエリ効率の良いブラックボックス攻撃である。
PhantomSoundは、商用音声コントロールデバイス5台を空から攻撃する上で実用的で堅牢であることを示す。
我々は、現在最先端のブラックボックス攻撃と比較して、クエリ効率を大幅に向上し、未目標および標的攻撃の成功コストを93.1%、65.5%削減する。
- 参考スコア(独自算出の注目度): 9.940661629195086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose PhantomSound, a query-efficient black-box attack
toward voice assistants. Existing black-box adversarial attacks on voice
assistants either apply substitution models or leverage the intermediate model
output to estimate the gradients for crafting adversarial audio samples.
However, these attack approaches require a significant amount of queries with a
lengthy training stage. PhantomSound leverages the decision-based attack to
produce effective adversarial audios, and reduces the number of queries by
optimizing the gradient estimation. In the experiments, we perform our attack
against 4 different speech-to-text APIs under 3 real-world scenarios to
demonstrate the real-time attack impact. The results show that PhantomSound is
practical and robust in attacking 5 popular commercial voice controllable
devices over the air, and is able to bypass 3 liveness detection mechanisms
with >95% success rate. The benchmark result shows that PhantomSound can
generate adversarial examples and launch the attack in a few minutes. We
significantly enhance the query efficiency and reduce the cost of a successful
untargeted and targeted adversarial attack by 93.1% and 65.5% compared with the
state-of-the-art black-box attacks, using merely ~300 queries (~5 minutes) and
~1,500 queries (~25 minutes), respectively.
- Abstract(参考訳): 本稿では,音声アシスタントに対するクエリ効率の高いブラックボックス攻撃であるPhantomSoundを提案する。
音声アシスタントに対する既存のブラックボックスの対向攻撃は、置換モデルを適用するか、中間モデル出力を利用して対向音声サンプルを作成するための勾配を推定する。
しかし、これらの攻撃アプローチは、長いトレーニング段階を持つ大量のクエリを必要とする。
phantomsoundは、決定に基づく攻撃を利用して効果的な逆オーディオを生成し、勾配推定を最適化することでクエリの数を減らす。
実験では,実世界の3つのシナリオの下で,4つの異なる音声対テキストAPIに対する攻撃を行い,リアルタイム攻撃の影響を実証した。
その結果,phantomsoundは5種類の商用音声制御デバイスに対して実用的で堅牢であり,95%以上の成功率で3つのライブネス検出機構をバイパスできることがわかった。
ベンチマークの結果、phantomsoundは逆の例を生成し、数分で攻撃を開始することができる。
我々は,現在最先端のブラックボックス攻撃と比較して,クエリ効率を大幅に向上させ,未ターゲット攻撃と目標攻撃のコストを93.1%と65.5%削減し,それぞれ300クエリ(~5分)と1,500クエリ(~25分)で比較した。
関連論文リスト
- Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Language Models [70.99768410765502]
アドリヤル音声攻撃は、音声に基づく人間と機械の相互作用において、大きな言語モデル(LLM)の増大に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro や GPT-4o など,音声対話機能を備えた6つの最先端 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - Parrot-Trained Adversarial Examples: Pushing the Practicality of
Black-Box Audio Attacks against Speaker Recognition Models [18.796342190114064]
ブラックボックス攻撃では、話者認識モデルからの特定の情報が有効である必要がある。
本研究の目的は、ターゲット話者認識モデルに関する攻撃者の知識を最小化することで、ブラックボックス攻撃の実用性を推し進めることである。
対象モデルに対してAEを生成するために,オウム訓練と呼ばれる新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-11-13T22:12:19Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Parallel Rectangle Flip Attack: A Query-based Black-box Attack against
Object Detection [89.08832589750003]
本稿では,攻撃領域近傍の準最適検出を回避するために,ランダム探索による並列矩形フリップ攻撃(PRFA)を提案する。
提案手法は, アンカーベースやアンカーフリーなど, 様々な人気物体検出装置を効果的かつ効率的に攻撃し, 転送可能な対向例を生成する。
論文 参考訳(メタデータ) (2022-01-22T06:00:17Z) - Attack on practical speaker verification system using universal
adversarial perturbations [20.38185341318529]
本研究は,提案する対人摂動を,相手が話しているときに別個の音源として演奏することにより,現実的な話者検証システムにより,相手を対象話者と誤認することを示す。
2段階のアルゴリズムが提案され、テキストに依存しない普遍的対向摂動を最適化し、認証テキスト認識にはほとんど影響を与えない。
論文 参考訳(メタデータ) (2021-05-19T09:43:34Z) - Cortical Features for Defense Against Adversarial Audio Attacks [55.61885805423492]
本稿では,聴覚野の計算モデルを用いて,音声に対する敵対的攻撃に対する防御手法を提案する。
また,大脳皮質の特徴は,普遍的な敵の例に対する防御に有効であることを示す。
論文 参考訳(メタデータ) (2021-01-30T21:21:46Z) - VenoMave: Targeted Poisoning Against Speech Recognition [30.448709704880518]
VENOMAVEは、音声認識に対する最初の訓練時間中毒攻撃である。
我々はTIDIGITSと音声コマンドの2つのデータセットに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-10-21T00:30:08Z) - Simple and Efficient Hard Label Black-box Adversarial Attacks in Low
Query Budget Regimes [80.9350052404617]
そこで我々は,ブラックボックス攻撃の簡易かつ効率的なベイズ最適化(BO)に基づく手法を提案する。
高次元におけるBOの性能に関する問題は、構造化された低次元部分空間における逆例を探すことによって回避される。
提案手法は,10倍から20倍のクエリを必要としながら,攻撃成功率を2倍から10倍に向上させる。
論文 参考訳(メタデータ) (2020-07-13T04:34:57Z) - AdvMind: Inferring Adversary Intent of Black-Box Attacks [66.19339307119232]
本稿では,ブラックボックス攻撃の敵意を頑健に推定する新たな評価モデルであるAdvMindを提案する。
平均的なAdvMindは、3回未満のクエリバッチを観察した後、75%以上の精度で敵の意図を検出する。
論文 参考訳(メタデータ) (2020-06-16T22:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。