論文の概要: Quantum-Inspired Audio Unlearning: Towards Privacy-Preserving Voice Biometrics
- arxiv url: http://arxiv.org/abs/2507.22208v1
- Date: Tue, 29 Jul 2025 20:12:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.85355
- Title: Quantum-Inspired Audio Unlearning: Towards Privacy-Preserving Voice Biometrics
- Title(参考訳): 量子インスパイアされたオーディオアンラーニング : プライバシー保護型音声バイオメトリックスを目指して
- Authors: Shreyansh Pathak, Sonu Shreshtha, Richa Singh, Mayank Vatsa,
- Abstract要約: QPAudioEraserは量子にインスパイアされたオーディオアンラーニングフレームワークである。
シングルクラス、マルチクラス、シーケンシャル、アクセントレベルの消去シナリオにまたがって、従来のベースラインを一貫して超越している。
- 参考スコア(独自算出の注目度): 44.60499998155848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread adoption of voice-enabled authentication and audio biometric systems have significantly increased privacy vulnerabilities associated with sensitive speech data. Compliance with privacy regulations such as GDPR's right to be forgotten and India's DPDP Act necessitates targeted and efficient erasure of individual-specific voice signatures from already-trained biometric models. Existing unlearning methods designed for visual data inadequately handle the sequential, temporal, and high-dimensional nature of audio signals, leading to ineffective or incomplete speaker and accent erasure. To address this, we introduce QPAudioEraser, a quantum-inspired audio unlearning framework. Our our-phase approach involves: (1) weight initialization using destructive interference to nullify target features, (2) superposition-based label transformations that obscure class identity, (3) an uncertainty-maximizing quantum loss function, and (4) entanglement-inspired mixing of correlated weights to retain model knowledge. Comprehensive evaluations with ResNet18, ViT, and CNN architectures across AudioMNIST, Speech Commands, LibriSpeech, and Speech Accent Archive datasets validate QPAudioEraser's superior performance. The framework achieves complete erasure of target data (0% Forget Accuracy) while incurring minimal impact on model utility, with a performance degradation on retained data as low as 0.05%. QPAudioEraser consistently surpasses conventional baselines across single-class, multi-class, sequential, and accent-level erasure scenarios, establishing the proposed approach as a robust privacy-preserving solution.
- Abstract(参考訳): 音声対応認証とオーディオバイオメトリックシステムの普及により、センシティブな音声データに関連するプライバシー上の脆弱性が大幅に増大した。
GDPRの忘れられる権利やインドのDPDP法などのプライバシー規制の遵守は、すでに訓練された生体認証モデルから個人固有の音声署名を標的とし、効率よく消去する必要がある。
音声信号の逐次的、時間的、高次元的な性質を視覚データのために設計された既存の未学習手法は、非効率または不完全な話者とアクセント消去をもたらす。
この問題に対処するために、QPAudioEraserという量子インスパイアされたオーディオアンラーニングフレームワークを紹介します。
本手法では,(1)対象特徴を無効化するための破壊的干渉を用いた重み初期化,(2)クラス識別を曖昧にするための重ね合わせに基づくラベル変換,(3)不確実性最大化量子損失関数,(4)モデル知識を維持するための相関重みの絡み合った混合を含む。
ResNet18、ViT、CNNアーキテクチャによる総合的な評価は、AudioMNIST、Speech Commands、LibriSpeech、Speech Accent Archiveのデータセットで、QPAudioEraserの優れたパフォーマンスを検証する。
このフレームワークは、モデルユーティリティへの影響を最小限に抑えつつ、ターゲットデータの完全消去(0%の予測精度)を実現し、保持データの性能劣化を0.05%に抑える。
QPAudioEraserは、シングルクラス、マルチクラス、シーケンシャル、アクセントレベルの消去シナリオにまたがる従来のベースラインを一貫して越え、堅牢なプライバシ保護ソリューションとして提案されたアプローチを確立している。
関連論文リスト
- CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning [30.85443077082408]
最近のTTS(text-to-speech)音声クローンのブレークスルーは、深刻なプライバシー上の懸念を引き起こしている。
ゼロショット音声のクローンを防止するために特別に設計された,普遍的な時間領域逆転摂動フレームワークであるCloneShieldを紹介する。
本手法は、合成テキストの事前知識を必要とせず、話者や発話に対して堅牢な保護を提供する。
論文 参考訳(メタデータ) (2025-05-25T12:22:00Z) - Quantized Approximate Signal Processing (QASP): Towards Homomorphic Encryption for audio [1.3584036432145363]
ホモモルフィック暗号化(FHE)は、暗号化されたデータの計算を可能にし、ユーザのプライバシを保存することで、有望なソリューションを提供する。
ここでは、FHEと量子化されたニューラルネットワーク操作を用いて、完全にセキュアなパイプラインを計算します。
提案手法は,音声記述子と畳み込みニューラルネットワーク(CNN)分類器のプライベートな計算もサポートする。
論文 参考訳(メタデータ) (2025-05-15T17:01:52Z) - Baichuan-Audio: A Unified Framework for End-to-End Speech Interaction [9.101978573666546]
Baichuan-Audioは、音声理解と生成をシームレスに統合するエンドツーエンドのオーディオ大言語モデルである。
テキスト誘導されたアライメントされた音声生成機構を備え、理解能力と生成能力の両方でリアルタイムな音声対話を可能にする。
論文 参考訳(メタデータ) (2025-02-24T15:16:34Z) - NLIP: Noise-robust Language-Image Pre-training [95.13287735264937]
雑音調和と雑音補完という2つの手法を用いて事前学習の安定化を図るため,NLIPの原理的手法を提案する。
我々のNLIPは、画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。
論文 参考訳(メタデータ) (2022-12-14T08:19:30Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Personalized Speech Enhancement through Self-Supervised Data
Augmentation and Purification [24.596224536399326]
疑似ソースのフレームバイフレームSNRを推定するために、SNR予測モデルを訓練する。
提案手法は,話者固有の雑音データの有用性を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2021-04-05T17:17:55Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。