論文の概要: Parrot-Trained Adversarial Examples: Pushing the Practicality of
Black-Box Audio Attacks against Speaker Recognition Models
- arxiv url: http://arxiv.org/abs/2311.07780v1
- Date: Mon, 13 Nov 2023 22:12:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-15 16:06:14.138320
- Title: Parrot-Trained Adversarial Examples: Pushing the Practicality of
Black-Box Audio Attacks against Speaker Recognition Models
- Title(参考訳): parrotが訓練した逆行例: 話者認識モデルに対するブラックボックス音声攻撃の実用性を推進する
- Authors: Rui Duan, Zhe Qu, Leah Ding, Yao Liu, Zhuo Lu
- Abstract要約: ブラックボックス攻撃では、話者認識モデルからの特定の情報が有効である必要がある。
本研究の目的は、ターゲット話者認識モデルに関する攻撃者の知識を最小化することで、ブラックボックス攻撃の実用性を推し進めることである。
対象モデルに対してAEを生成するために,オウム訓練と呼ばれる新しいメカニズムを提案する。
- 参考スコア(独自算出の注目度): 18.796342190114064
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Audio adversarial examples (AEs) have posed significant security challenges
to real-world speaker recognition systems. Most black-box attacks still require
certain information from the speaker recognition model to be effective (e.g.,
keeping probing and requiring the knowledge of similarity scores). This work
aims to push the practicality of the black-box attacks by minimizing the
attacker's knowledge about a target speaker recognition model. Although it is
not feasible for an attacker to succeed with completely zero knowledge, we
assume that the attacker only knows a short (or a few seconds) speech sample of
a target speaker. Without any probing to gain further knowledge about the
target model, we propose a new mechanism, called parrot training, to generate
AEs against the target model. Motivated by recent advancements in voice
conversion (VC), we propose to use the one short sentence knowledge to generate
more synthetic speech samples that sound like the target speaker, called parrot
speech. Then, we use these parrot speech samples to train a parrot-trained(PT)
surrogate model for the attacker. Under a joint transferability and perception
framework, we investigate different ways to generate AEs on the PT model
(called PT-AEs) to ensure the PT-AEs can be generated with high transferability
to a black-box target model with good human perceptual quality. Real-world
experiments show that the resultant PT-AEs achieve the attack success rates of
45.8% - 80.8% against the open-source models in the digital-line scenario and
47.9% - 58.3% against smart devices, including Apple HomePod (Siri), Amazon
Echo, and Google Home, in the over-the-air scenario.
- Abstract(参考訳): aes(audio adversarial examples)は、現実世界の話者認識システムに重大なセキュリティ上の課題をもたらした。
ほとんどのブラックボックス攻撃は、話者認識モデルからの特定の情報が必要である(例えば、調査を続け、類似度スコアの知識を必要とする)。
本研究の目的は、ターゲット話者認識モデルに関する攻撃者の知識を最小限に抑え、ブラックボックス攻撃の実用性を高めることである。
攻撃者が完全にゼロの知識を持って成功することは不可能であるが、攻撃者はターゲットスピーカーの短い(あるいは数秒)音声サンプルしか知らないと仮定する。
ターゲットモデルに関するさらなる知識を得るための調査がなければ、parrot trainingと呼ばれる新しいメカニズムを提案し、ターゲットモデルに対してaesを生成する。
近年の音声変換 (vc) の進歩に動機づけられ, 1つの短文知識を用いて,parrot speech という合成音声サンプルを生成することを提案する。
次に、これらのオウム音声サンプルを用いて攻撃者に対するオウム訓練(PT)代理モデルを訓練する。
本研究では,PTモデル(PT-AEs)上でのAEの生成方法について検討し,PT-AEsが人間の知覚的品質の高いブラックボックスターゲットモデルに高い伝達性で生成可能であることを確認した。
実世界の実験によると、PT-AEはデジタルラインシナリオのオープンソースモデルに対して45.8%から80.8%、Apple HomePod(Siri)、Amazon Echo、Google Homeなどのスマートデバイスに対して47.9%から58.3%の攻撃成功率を達成した。
関連論文リスト
- PhantomSound: Black-Box, Query-Efficient Audio Adversarial Attack via
Split-Second Phoneme Injection [9.940661629195086]
PhantomSoundは、音声アシスタントに対するクエリ効率の良いブラックボックス攻撃である。
PhantomSoundは、商用音声コントロールデバイス5台を空から攻撃する上で実用的で堅牢であることを示す。
我々は、現在最先端のブラックボックス攻撃と比較して、クエリ効率を大幅に向上し、未目標および標的攻撃の成功コストを93.1%、65.5%削減する。
論文 参考訳(メタデータ) (2023-09-13T13:50:41Z) - Interpretable Spectrum Transformation Attacks to Speaker Recognition [8.770780902627441]
ブラックボックスの被害者モデルに対する敵声の伝達性を改善するための一般的な枠組みが提案されている。
提案フレームワークは時間周波数領域で音声を動作させ,攻撃の解釈性,伝達性,非受容性を向上させる。
論文 参考訳(メタデータ) (2023-02-21T14:12:29Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Dictionary Attacks on Speaker Verification [15.00667613025837]
様々な音声表現と脅威モデルで使用できる攻撃の汎用的定式化を導入する。
攻撃者は、逆最適化を用いて、シード音声サンプルとプロキシ集団との話者埋め込みの生の類似性を最大化する。
この攻撃は、複数の試みと組み合わさって、これらのシステムのセキュリティに関する深刻な問題にさらに開きます。
論文 参考訳(メタデータ) (2022-04-24T15:31:41Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z) - VenoMave: Targeted Poisoning Against Speech Recognition [30.448709704880518]
VENOMAVEは、音声認識に対する最初の訓練時間中毒攻撃である。
我々はTIDIGITSと音声コマンドの2つのデータセットに対する攻撃を評価した。
論文 参考訳(メタデータ) (2020-10-21T00:30:08Z) - Defense for Black-box Attacks on Anti-spoofing Models by Self-Supervised
Learning [71.17774313301753]
本研究では,自己指導型高水準表現の堅牢性について,敵攻撃に対する防御に利用して検討する。
ASVspoof 2019データセットの実験結果は、Mockingjayによって抽出されたハイレベルな表現が、敵の例の転送可能性を妨げることを示した。
論文 参考訳(メタデータ) (2020-06-05T03:03:06Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。