論文の概要: Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization via Neural Audio Codec and Language Models
- arxiv url: http://arxiv.org/abs/2601.13948v1
- Date: Tue, 20 Jan 2026 13:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.324421
- Title: Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization via Neural Audio Codec and Language Models
- Title(参考訳): Stream-Voice-Anon:ニューラルオーディオコーデックと言語モデルによるリアルタイム話者匿名化の有用性向上
- Authors: Nikita Kuzmin, Songting Liu, Kong Aik Lee, Eng Siong Chng,
- Abstract要約: Stream-Voice-Anonは、ストリーミングスピーカーの匿名化に特化して、現代的なLMベースのNACアーキテクチャを適用している。
匿名化アプローチには、擬似話者表現サンプリング、話者埋め込みミキシング、多様なプロンプト選択戦略が組み込まれている。
VoicePrivacy 2024 Challengeプロトコルの下で、Stream-Voice-Anonは知性を大幅に改善した。
- 参考スコア(独自算出の注目度): 51.7170633585748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protecting speaker identity is crucial for online voice applications, yet streaming speaker anonymization (SA) remains underexplored. Recent research has demonstrated that neural audio codec (NAC) provides superior speaker feature disentanglement and linguistic fidelity. NAC can also be used with causal language models (LM) to enhance linguistic fidelity and prompt control for streaming tasks. However, existing NAC-based online LM systems are designed for voice conversion (VC) rather than anonymization, lacking the techniques required for privacy protection. Building on these advances, we present Stream-Voice-Anon, which adapts modern causal LM-based NAC architectures specifically for streaming SA by integrating anonymization techniques. Our anonymization approach incorporates pseudo-speaker representation sampling, a speaker embedding mixing and diverse prompt selection strategies for LM conditioning that leverage the disentanglement properties of quantized content codes to prevent speaker information leakage. Additionally, we compare dynamic and fixed delay configurations to explore latency-privacy trade-offs in real-time scenarios. Under the VoicePrivacy 2024 Challenge protocol, Stream-Voice-Anon achieves substantial improvements in intelligibility (up to 46% relative WER reduction) and emotion preservation (up to 28% UAR relative) compared to the previous state-of-the-art streaming method DarkStream while maintaining comparable latency (180ms vs 200ms) and privacy protection against lazy-informed attackers, though showing 15% relative degradation against semi-informed attackers.
- Abstract(参考訳): オンライン音声アプリケーションでは,話者識別の保護が重要であるが,ストリーミング話者匿名化(SA)はいまだ検討されていない。
最近の研究は、ニューラルオーディオコーデック(NAC)が優れた話者特徴のアンタングルメントと言語的忠実性を提供することを示した。
また、NACは因果言語モデル(LM)とも併用して、言語的忠実度を高め、ストリーミングタスクの迅速な制御を行うことができる。
しかし、既存のNACベースのオンラインLMシステムは匿名化ではなく、音声変換(VC)のために設計されており、プライバシー保護に必要な技術が欠如している。
これらの進歩に基づいて、匿名化技術を統合することで、ストリーミングSAに特化した現代的なLMベースのNACアーキテクチャを適応するStream-Voice-Anonを提案する。
我々の匿名化手法は、擬似話者表現サンプリング、話者埋め込みミキシング、および量子化されたコンテンツコードのアンタングル特性を利用して話者情報の漏洩を防止するLMコンディショニングのための多様なプロンプト選択戦略を取り入れている。
さらに、動的および固定された遅延構成を比較して、リアルタイムシナリオにおけるレイテンシプライバシトレードオフを調査します。
VoicePrivacy 2024 Challengeプロトコルの下では、Stream-Voice-Anonは、従来の最先端ストリーミング手法であるDarkStreamと比較して、インテリジェンス(46%の相対的なWER削減)と感情保存(最大28%のUAR相対)の大幅な改善を実現している。
関連論文リスト
- WavInWav: Time-domain Speech Hiding via Invertible Neural Network [78.85443308774484]
従来の音声隠蔽法は、秘密の音声を復元する際に不満足な品質をもたらすことが多い。
フローベースの非可逆ニューラルネットワークを使用して、ステゴオーディオ、カバーオーディオ、シークレットオーディオの直接的なリンクを確立する。
また、隠れたデータを不正アクセスから保護するための暗号化技術も追加します。
論文 参考訳(メタデータ) (2025-10-03T11:36:16Z) - VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z) - DarkStream: real-time speech anonymization with low latency [5.872253202878362]
リアルタイム話者匿名化のためのストリーミング音声合成モデルであるDarkStreamを提案する。
DarkStreamは因果波形エンコーダ、ショートルックバッファ、トランスフォーマーベースのコンテキスト層を組み合わせたものだ。
DarkStreamは、コンテンツエンコーダから言語機能に埋め込まれたGAN生成の擬似話者を注入することで、話者識別を匿名化する。
論文 参考訳(メタデータ) (2025-09-04T21:30:25Z) - Quantum-Inspired Audio Unlearning: Towards Privacy-Preserving Voice Biometrics [44.60499998155848]
QPAudioEraserは量子にインスパイアされたオーディオアンラーニングフレームワークである。
シングルクラス、マルチクラス、シーケンシャル、アクセントレベルの消去シナリオにまたがって、従来のベースラインを一貫して超越している。
論文 参考訳(メタデータ) (2025-07-29T20:12:24Z) - Whispering Under the Eaves: Protecting User Privacy Against Commercial and LLM-powered Automatic Speech Recognition Systems [20.45938874279563]
本稿では,音声認識システムに対して音声認識を保護するための新しいフレームワークであるAudioShieldを提案する。
摂動を潜伏空間に転送することにより、音質は広範囲に保存される。
AudioShieldは、リアルタイムのエンドツーエンドシナリオにおいて高い効果を示し、適応的な対策に対して強力なレジリエンスを示す。
論文 参考訳(メタデータ) (2025-04-01T14:49:39Z) - End-to-end streaming model for low-latency speech anonymization [11.098498920630782]
本稿では低レイテンシで話者匿名化を実現するストリーミングモデルを提案する。
システムは軽量コンテンツエンコーダを用いてエンドツーエンドのオートエンコーダ方式で訓練される。
本稿では,2つのシステムの実装による評価結果について述べる。
論文 参考訳(メタデータ) (2024-06-13T16:15:53Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - WNARS: WFST based Non-autoregressive Streaming End-to-End Speech
Recognition [59.975078145303605]
本稿では,ハイブリッドCTC-attention AEDモデルと重み付き有限状態トランスデューサを用いた新しいフレームワークWNARSを提案する。
AISHELL-1タスクでは、640msの遅延で5.22%の文字エラー率を達成し、オンラインASRの最先端のパフォーマンスである私たちの知識を最大限に活用します。
論文 参考訳(メタデータ) (2021-04-08T07:56:03Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。