論文の概要: Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2504.00858v1
- Date: Tue, 01 Apr 2025 14:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:22.615219
- Title: Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems
- Title(参考訳): ユーザプライバシの保護とLCMによる音声認識システム
- Authors: Weifei Jin, Yuxin Cao, Junjie Su, Derui Wang, Yedi Zhang, Minhui Xue, Jie Hao, Jin Song Dong, Yixian Yang,
- Abstract要約: 本稿では,音声認識システムに対して音声認識を保護するための新しいフレームワークであるAudioShieldを提案する。
摂動を潜伏空間に転送することにより、音質は広範囲に保存される。
AudioShieldは、リアルタイムのエンドツーエンドシナリオにおいて高い効果を示し、適応的な対策に対して強力なレジリエンスを示す。
- 参考スコア(独自算出の注目度): 20.45938874279563
- License:
- Abstract: The widespread application of automatic speech recognition (ASR) supports large-scale voice surveillance, raising concerns about privacy among users. In this paper, we concentrate on using adversarial examples to mitigate unauthorized disclosure of speech privacy thwarted by potential eavesdroppers in speech communications. While audio adversarial examples have demonstrated the capability to mislead ASR models or evade ASR surveillance, they are typically constructed through time-intensive offline optimization, restricting their practicality in real-time voice communication. Recent work overcame this limitation by generating universal adversarial perturbations (UAPs) and enhancing their transferability for black-box scenarios. However, they introduced excessive noise that significantly degrades audio quality and affects human perception, thereby limiting their effectiveness in practical scenarios. To address this limitation and protect live users' speech against ASR systems, we propose a novel framework, AudioShield. Central to this framework is the concept of Transferable Universal Adversarial Perturbations in the Latent Space (LS-TUAP). By transferring the perturbations to the latent space, the audio quality is preserved to a large extent. Additionally, we propose target feature adaptation to enhance the transferability of UAPs by embedding target text features into the perturbations. Comprehensive evaluation on four commercial ASR APIs (Google, Amazon, iFlytek, and Alibaba), three voice assistants, two LLM-powered ASR and one NN-based ASR demonstrates the protection superiority of AudioShield over existing competitors, and both objective and subjective evaluations indicate that AudioShield significantly improves the audio quality. Moreover, AudioShield also shows high effectiveness in real-time end-to-end scenarios, and demonstrates strong resilience against adaptive countermeasures.
- Abstract(参考訳): 音声認識(ASR)の広範な適用は、大規模音声監視をサポートし、ユーザ間のプライバシに関する懸念を高めている。
本稿では,音声通信における盗聴者による音声のプライバシーの不正な開示を軽減するために,敵対的な例を用いることに集中する。
音声の敵対的な例は、ASRモデルを誤解させたり、ASRの監視を避けたりする能力を示しているが、それらは通常、時間集約的なオフライン最適化によって構築され、リアルタイム音声通信における実用性を制限する。
最近の研究は、普遍的対向摂動(UAP)を発生させ、ブラックボックスシナリオの転送可能性を高めることで、この制限を克服している。
しかし、彼らは音質を著しく劣化させ、人間の知覚に影響を及ぼす過度ノイズを導入し、実用的なシナリオにおけるその効果を制限した。
この制限に対処し、ASRシステムに対するライブユーザのスピーチを保護するために、新しいフレームワークであるAudioShieldを提案する。
この枠組みの中心は、LS-TUAP(Transferable Universal Adversarial Perturbations in the Latent Space)の概念である。
摂動を潜伏空間に転送することにより、音質は広範囲に保存される。
さらに、ターゲットテキスト特徴を摂動に埋め込むことにより、UAPの転送可能性を高めるためのターゲット特徴適応を提案する。
Google、Amazon、iFlytek、Alibabaの4つの商用ASR APIに関する総合的な評価、3つの音声アシスタント、2つのLLMベースのASRと1つのNNベースのASRは、既存のライバルよりもAudioShieldの保護上の優位性を示しており、客観的および主観的な評価は、AudioShieldがオーディオ品質を大幅に改善していることを示している。
さらに、AudioShieldは、リアルタイムのエンドツーエンドシナリオでも高い効果を示し、適応的な対策に対して強力なレジリエンスを示す。
関連論文リスト
- Enhancing Audiovisual Speech Recognition through Bifocal Preference Optimization [59.1277150358203]
実世界のビデオの音声認識精度を向上させるために、選好最適化手法を提案する。
まず、AV-ASRで発生した一般的なエラーを2つの焦点からシミュレーションすることで、嗜好データを生成する。
次に,AV-ASRモデルを改善するために,入力側と出力側の両方を優先してBPO-AVASRを提案する。
論文 参考訳(メタデータ) (2024-12-26T00:26:45Z) - Towards Evaluating the Robustness of Automatic Speech Recognition Systems via Audio Style Transfer [8.948537516293328]
本稿では,ユーザ認識スタイルの転送に基づく自動音声認識(ASR)システムに対する攻撃を提案する。
提案手法は,ユーザカスタマイズスタイルの必要性を満たすとともに,攻撃の82%の成功率を達成することができる。
論文 参考訳(メタデータ) (2024-05-15T16:05:24Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - High-Quality Automatic Voice Over with Accurate Alignment: Supervision
through Self-Supervised Discrete Speech Units [69.06657692891447]
本稿では,自己教師付き離散音声単位予測の学習目的を活用した新しいAVO手法を提案する。
実験結果から,提案手法は有意な唇音声同期と高音質を実現することが示された。
論文 参考訳(メタデータ) (2023-06-29T15:02:22Z) - Improving Fairness and Robustness in End-to-End Speech Recognition
through unsupervised clustering [49.069298478971696]
エンド・ツー・エンドASRの公平性と堅牢性を改善するためのプライバシー保護手法を提案する。
公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出する。
モデル学習において,話者発話の埋め込みの代わりにクラスタIDを付加的な特徴として用いた。
論文 参考訳(メタデータ) (2023-06-06T21:13:08Z) - Privacy against Real-Time Speech Emotion Detection via Acoustic
Adversarial Evasion of Machine Learning [7.387631194438338]
DARE-GPは、音声の書き起こし関連部分を保存しながら、ユーザの感情情報を隠蔽する付加的なノイズを生成するソリューションである。
DARE-GPは、既存の作品と異なり、a) 音声の書き起こしを保護しながら、(b) 未確認のブラックボックスのSER分類器に対して、(b) 音の聞こえない発話をリアルタイムに保護し、(c) 声の書き起こしを現実的に音響的に保護する。
論文 参考訳(メタデータ) (2022-11-17T00:25:05Z) - Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual
Active Speaker Detection [88.74863771919445]
我々は、音声のみ、視覚のみ、および音声-視覚的敵対攻撃下でのAVASDモデルの脆弱性を明らかにする。
また,攻撃者が現実的な相手を見つけるのを困難にするため,新たな音声・視覚的相互作用損失(AVIL)を提案する。
論文 参考訳(メタデータ) (2022-10-03T08:10:12Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z) - Configurable Privacy-Preserving Automatic Speech Recognition [5.730142956540673]
音声支援システムにおけるモジュラ自動音声認識がプライバシーを向上するかどうかを検討する。
プライバシの懸念と,システムの各ステージに様々な最先端技術を適用する効果を示す。
これはASRを組み込んだプライバシー保護アプリケーションに新たな機会をもたらすと我々は主張する。
論文 参考訳(メタデータ) (2021-04-01T21:03:49Z) - WaveGuard: Understanding and Mitigating Audio Adversarial Examples [12.010555227327743]
本稿では,ASRシステムに対する敵入力を検出するフレームワークであるWaveGuardを紹介する。
本フレームワークは,音声変換機能を組み込んで原音声と変換音声のasr転写を解析し,逆入力を検出する。
論文 参考訳(メタデータ) (2021-03-04T21:44:37Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。