論文の概要: Scores Know Bobs Voice: Speaker Impersonation Attack
- arxiv url: http://arxiv.org/abs/2603.02781v1
- Date: Tue, 03 Mar 2026 09:20:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.727861
- Title: Scores Know Bobs Voice: Speaker Impersonation Attack
- Title(参考訳): ボブス・ボイス(Bobs Voice)について知っておくべきこと
- Authors: Chanwoo Hwang, Sunpill Kim, Yong Kiam Tan, Tianchi Liu, Seunghun Paik, Dongsoo Kim, Mondal Soumik, Khin Mi Mi Aung, Jae Hong Seo,
- Abstract要約: 本稿では,合成モデルの潜在空間とSRSの識別的特徴空間とを一致させる逆ベース生成攻撃フレームワークを提案する。
実験の結果,提案手法はクエリ効率を大幅に向上し,従来の手法に比べて平均10倍少ないクエリで競合攻撃の成功率を達成することができた。
- 参考スコア(独自算出の注目度): 8.404098071525473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in deep learning have enabled the widespread deployment of speaker recognition systems (SRSs), yet they remain vulnerable to score-based impersonation attacks. Existing attacks that operate directly on raw waveforms require a large number of queries due to the difficulty of optimizing in high-dimensional audio spaces. Latent-space optimization within generative models offers improved efficiency, but these latent spaces are shaped by data distribution matching and do not inherently capture speaker-discriminative geometry. As a result, optimization trajectories often fail to align with the adversarial direction needed to maximize victim scores. To address this limitation, we propose an inversion-based generative attack framework that explicitly aligns the latent space of the synthesis model with the discriminative feature space of SRSs. We first analyze the requirements of an inverse model for score-based attacks and introduce a feature-aligned inversion strategy that geometrically synchronizes latent representations with speaker embeddings. This alignment ensures that latent updates directly translate into score improvements. Moreover, it enables new attack paradigms, including subspace-projection-based attacks, which were previously infeasible due to the absence of a faithful feature-to-audio mapping. Experiments show that our method significantly improves query efficiency, achieving competitive attack success rates with on average 10x fewer queries than prior approaches. In particular, the enabled subspace-projection-based attack attains up to 91.65% success using only 50 queries. These findings establish feature-aligned inversion as a key tool for evaluating the robustness of modern SRSs against score-based impersonation threats.
- Abstract(参考訳): ディープラーニングの進歩により、話者認識システム(SRS)の広範な展開が可能になったが、スコアベースの偽造攻撃には弱いままである。
生波形を直接操作する既存の攻撃は、高次元オーディオ空間の最適化が困難であるため、大量のクエリを必要とする。
生成モデル内の潜時空間最適化は効率を向上するが、これらの潜時空間はデータ分布マッチングによって形成され、本質的には話者識別幾何学を捉えない。
その結果、最適化軌道はしばしば、犠牲者のスコアを最大化するために必要な敵方向と一致しない。
この制限に対処するために,合成モデルの潜在空間とSRSの識別的特徴空間を明示的に整合させる逆ベース生成攻撃フレームワークを提案する。
まず、スコアベースの攻撃に対する逆モデルの要求を分析し、話者埋め込みとラテント表現を幾何的に同期させる特徴整合反転戦略を導入する。
このアライメントにより、潜在更新が直接スコア改善に変換される。
さらに、サブスペースプロジェクションベースのアタックなど、忠実な機能対オーディオマッピングがないために以前は実現不可能だった新たなアタックパラダイムも実現している。
実験の結果,提案手法はクエリ効率を大幅に向上し,従来の手法に比べて平均10倍少ないクエリで競合攻撃の成功率を達成することができた。
特に、サブスペースプロジェクションベースの攻撃は、たった50クエリで最大91.65%成功している。
これらの知見は,現代のSRSが得点に基づく偽装脅威に対して頑健であることを評価するための重要なツールとして,特徴整合型逆転を確立した。
関連論文リスト
- SPEAR++: Scaling Gradient Inversion via Sparsely-Used Dictionary Learning [48.41770886055744]
Federated Learningは最近、現実世界のシナリオへのデプロイが増えている。
いわゆる勾配反転攻撃の導入は、プライバシー保護特性に挑戦している。
本稿では,ReLU活性化を伴う線形層の勾配の理論的解析に基づくSPEARを紹介する。
新たな攻撃であるSPEAR++は、DPノイズに対する堅牢性やFedAvgアグリゲーションなど、SPEARの望ましい特性をすべて保持しています。
論文 参考訳(メタデータ) (2025-10-28T09:06:19Z) - Multi-Metric Preference Alignment for Generative Speech Restoration [15.696247605348383]
生成モデルに対するマルチメトリックな選好アライメント戦略を提案する。
3つの異なる生成パラダイムの一貫性と重要なパフォーマンス向上を観察する。
我々のアライメントモデルは強力な'データアノテータ'として機能し、高品質な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2025-08-24T07:05:10Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Improving Black-Box Generative Attacks via Generator Semantic Consistency [51.470649503929344]
ジェネレーティブアタックは テスト時に 1つのフォワードパスで 敵の例を生成する
初期ジェネレータの中間機能をEMA教師に整列させることで意味的整合性を実現する。
我々のアプローチは、ブラックボックス転送の一貫性を保ちながら、既存のジェネレーティブアタックにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-06-23T02:35:09Z) - AdvWave: Stealthy Adversarial Jailbreak Attack against Large Audio-Language Models [13.807596637437808]
大規模オーディオ誘導モデル(LALM)の最近の進歩は、音声によるユーザインタラクションを可能にしている。
しかし、LALMの安全性を確保することは、社会的な懸念やAI規制を引き起こすリスクのあるアウトプットを防ぐために不可欠である。
論文 参考訳(メタデータ) (2024-12-11T18:30:57Z) - Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples [33.445126880876415]
自動話者検証システムに到達させる代わりに、スプーフ攻撃をフィルタリングする信頼性と堅牢なスプーフ検出システムを提案する。
データ不均衡問題に対処するために重み付き加法的角縁損失が提案され、スプーフィング攻撃に対する一般化を改善するために異なるマージンが割り当てられている。
データ拡張戦略として、スプーフィング音声に知覚不能な摂動を加えて、敵の例にのみ対応する正規化統計が実行されることを保証するために、補助的なバッチ正規化を用いる。
論文 参考訳(メタデータ) (2024-08-23T19:26:54Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Enhancing Adversarial Robustness via Score-Based Optimization [22.87882885963586]
敵対的攻撃は、わずかな摂動を導入することによって、ディープニューラルネットワーク分類器を誤認する可能性がある。
ScoreOptと呼ばれる新しい対向防御方式を導入し、テスト時に対向サンプルを最適化する。
実験の結果,本手法は性能とロバスト性の両方において,既存の敵防御よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-10T03:59:42Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。