論文の概要: IO-RAE: Information-Obfuscation Reversible Adversarial Example for Audio Privacy Protection
- arxiv url: http://arxiv.org/abs/2601.01239v1
- Date: Sat, 03 Jan 2026 17:08:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.139406
- Title: IO-RAE: Information-Obfuscation Reversible Adversarial Example for Audio Privacy Protection
- Title(参考訳): IO-RAE:オーディオプライバシ保護のための情報拡散可逆対応事例
- Authors: Jiajie Zhu, Xia Du, Xiaoyuan Liu, Jizhe Zhou, Qizhen Xu, Zheng Lin, Chi-Man Pun,
- Abstract要約: 本稿では,音声のプライバシーを守るために,IO-RAE(Information-Obfuscation Reversible Adrial Example)フレームワークを提案する。
IO-RAEは大きな言語モデルを利用して、誤解を招くがコンテキスト的に一貫性のあるコンテンツを生成する。
本稿では、高周波雑音を緩和し、低周波信号をターゲットにして攻撃効果を高める累積信号攻撃手法を提案する。
- 参考スコア(独自算出の注目度): 38.60913794380576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancements in artificial intelligence have significantly accelerated the adoption of speech recognition technology, leading to its widespread integration across various applications. However, this surge in usage also highlights a critical issue: audio data is highly vulnerable to unauthorized exposure and analysis, posing significant privacy risks for businesses and individuals. This paper introduces an Information-Obfuscation Reversible Adversarial Example (IO-RAE) framework, the pioneering method designed to safeguard audio privacy using reversible adversarial examples. IO-RAE leverages large language models to generate misleading yet contextually coherent content, effectively preventing unauthorized eavesdropping by humans and Automatic Speech Recognition (ASR) systems. Additionally, we propose the Cumulative Signal Attack technique, which mitigates high-frequency noise and enhances attack efficacy by targeting low-frequency signals. Our approach ensures the protection of audio data without degrading its quality or our ability. Experimental evaluations demonstrate the superiority of our method, achieving a targeted misguidance rate of 96.5% and a remarkable 100% untargeted misguidance rate in obfuscating target keywords across multiple ASR models, including a commercial black-box system from Google. Furthermore, the quality of the recovered audio, measured by the Perceptual Evaluation of Speech Quality score, reached 4.45, comparable to high-quality original recordings. Notably, the recovered audio processed by ASR systems exhibited an error rate of 0%, indicating nearly lossless recovery. These results highlight the practical applicability and effectiveness of our IO-RAE framework in protecting sensitive audio privacy.
- Abstract(参考訳): 人工知能の急速な進歩は音声認識技術の採用を著しく加速させ、様々なアプリケーションに広く統合された。
音声データは、無許可の露出と分析に対して非常に脆弱であり、企業や個人にとって重大なプライバシー上のリスクを生じさせる。
本稿では,可逆的逆数例を用いた音声プライバシーの保護を目的とした先駆的手法であるIO-RAE(Information-Obfuscation Reversible Adversarial Example)フレームワークを提案する。
IO-RAEは大きな言語モデルを利用して、誤解を招くが文脈的に一貫性のあるコンテンツを生成する。
また、高周波雑音を緩和し、低周波信号をターゲットにして攻撃効果を高める累積信号攻撃手法を提案する。
弊社のアプローチは、品質や能力を損なうことなく、オーディオデータの保護を確実にする。
実験により,Google の商用ブラックボックスシステムを含む複数の ASR モデルで対象キーワードを難読化した場合,目標誤認率96.5%,目標誤認率100%を顕著に達成し,本手法の優位性を示す。
さらに、音声品質スコアの知覚的評価によって測定された再生音声の品質は、高品質なオリジナル録音に匹敵する4.45に達した。
特に、ASRシステムによって処理された再生オーディオはエラー率0%を示し、ほぼ損失のない回復を示した。
これらの結果は、機密性の高いオーディオプライバシーを保護するためのIO-RAEフレームワークの実用性と有効性を強調した。
関連論文リスト
- VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z) - Quantum-Inspired Audio Unlearning: Towards Privacy-Preserving Voice Biometrics [44.60499998155848]
QPAudioEraserは量子にインスパイアされたオーディオアンラーニングフレームワークである。
シングルクラス、マルチクラス、シーケンシャル、アクセントレベルの消去シナリオにまたがって、従来のベースラインを一貫して超越している。
論文 参考訳(メタデータ) (2025-07-29T20:12:24Z) - Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems [20.45938874279563]
本稿では,音声認識システムに対して音声認識を保護するための新しいフレームワークであるAudioShieldを提案する。
摂動を潜伏空間に転送することにより、音質は広範囲に保存される。
AudioShieldは、リアルタイムのエンドツーエンドシナリオにおいて高い効果を示し、適応的な対策に対して強力なレジリエンスを示す。
論文 参考訳(メタデータ) (2025-04-01T14:49:39Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Boosting the Transferability of Audio Adversarial Examples with Acoustic Representation Optimization [4.720552406377147]
音声表現モデルから導かれる低レベル音響特性と対向的摂動を一致させる手法を提案する。
本手法はプラグイン・アンド・プレイであり,既存の攻撃手法と統合可能である。
論文 参考訳(メタデータ) (2025-03-25T12:14:10Z) - Mitigating Unauthorized Speech Synthesis for Voice Protection [7.1578783467799]
悪意のある音声による搾取は 我々の日常生活に大きな危険をもたらしました
個人音声など機密情報を含む公開音声データを保護することが重要である。
本稿では,従来の音声サンプルに知覚不可能な誤り最小化雑音を適用したPivotal Objective Perturbation(POP)を提案する。
論文 参考訳(メタデータ) (2024-10-28T05:16:37Z) - Blackbox Untargeted Adversarial Testing of Automatic Speech Recognition
Systems [1.599072005190786]
音声認識システムは、家電の音声ナビゲーションや音声制御への応用に広く利用されている。
ディープニューラルネットワーク(DNN)は、敵の摂動に感受性があることが示されている。
本稿では,ASRSの正しさをテストするため,ブラックボックスの自動生成手法を提案する。
論文 参考訳(メタデータ) (2021-12-03T10:21:47Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。