論文の概要: StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation
- arxiv url: http://arxiv.org/abs/2603.06079v1
- Date: Fri, 06 Mar 2026 09:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.492272
- Title: StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation
- Title(参考訳): StreamVoiceAnon+:フレームレベル音響蒸留による感情保存型ストリーミング話者匿名化
- Authors: Nikita Kuzmin, Kong Aik Lee, Eng Siong Chng,
- Abstract要約: ストリーミング話者匿名化(SA)における感情コンテンツ保存の課題に対処する。
音響トークン隠蔽状態におけるフレームレベルの感情蒸留と同一話者からのニュートラル感情発話対を用いた教師付き微調整を提案する。
VoicePrivacy 2024プロトコルでは、49.2%のUAR(感情保存)と5.77%のWER(インテリジェンス)を実現している。
- 参考スコア(独自算出の注目度): 56.49717639074325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenge of preserving emotional content in streaming speaker anonymization (SA). Neural audio codec language models trained for audio continuation tend to degrade source emotion: content tokens discard emotional information, and the model defaults to dominant acoustic patterns rather than preserving paralinguistic attributes. We propose supervised finetuning with neutral-emotion utterance pairs from the same speaker, combined with frame-level emotion distillation on acoustic token hidden states. All modifications are confined to finetuning, which takes less than 2 hours on 4 GPUs and adds zero inference latency overhead, while maintaining a competitive 180ms streaming latency. On the VoicePrivacy 2024 protocol, our approach achieves a 49.2% UAR (emotion preservation) with 5.77% WER (intelligibility), a +24% relative UAR improvement over the baseline (39.7%->49.2%) and +10% over the emotion-prompt variant (44.6% UAR), while maintaining strong privacy (EER 49.0%). Demo and code are available: https://anonymous3842031239.github.io/
- Abstract(参考訳): 本稿では,ストリーミング話者匿名化(SA)における感情的コンテンツ保存の課題に対処する。
音声継続のために訓練されたニューラルオーディオコーデック言語モデルは、ソースの感情を劣化させる傾向がある。
音響トークン隠蔽状態におけるフレームレベルの感情蒸留と同一話者からのニュートラル感情発話対を用いた教師付き微調整を提案する。
あらゆる変更は微調整に限定されており、4つのGPUで2時間未満で、競合する180msのストリーミングレイテンシを維持しながら、推論遅延のオーバーヘッドがゼロになる。
VoicePrivacy 2024プロトコルでは、49.2%のUAR(感情保存)が5.77%のWER(インテリジェンス)、+24%のUARがベースライン(39.7%->49.2%)、+10%が感情のプロンプト変異(44.6% UAR)で、強いプライバシ(EER 49.0%)を維持している。
デモとコードは https://anonymous3842031239.github.io/
関連論文リスト
- Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization via Neural Audio Codec and Language Models [51.7170633585748]
Stream-Voice-Anonは、ストリーミングスピーカーの匿名化に特化して、現代的なLMベースのNACアーキテクチャを適用している。
匿名化アプローチには、擬似話者表現サンプリング、話者埋め込みミキシング、多様なプロンプト選択戦略が組み込まれている。
VoicePrivacy 2024 Challengeプロトコルの下で、Stream-Voice-Anonは知性を大幅に改善した。
論文 参考訳(メタデータ) (2026-01-20T13:23:44Z) - HLTCOE JHU Submission to the Voice Privacy Challenge 2024 [31.94758615908198]
音声プライバシチャレンジのためのシステムをいくつか紹介する。
音声変換システムは感情的コンテンツをよりよく保存するが、半ホワイトボックス攻撃のシナリオでは話者の身元を隠すのに苦労している。
本稿では,2種類のシステムの強みと弱みのバランスをとるために,ランダムな混合システムを提案する。
論文 参考訳(メタデータ) (2024-09-13T15:29:37Z) - A Cross-Modal Approach to Silent Speech with LLM-Enhanced Recognition [0.0]
サイレント音声インタフェース(SSI)は、無音音声通信のための脳-コンピュータインタフェースの非侵襲的な代替手段を提供する。
我々は,マルチモーダル・ニューラル・オーディオ(MONA)を導入し,多モーダル・アライメントを利用した多モーダル・モデルの学習を行う。
我々の知る限りでは、オープンボキャブラリ上の非侵襲的無声音声認識が15% WERの閾値をクリアした最初の事例である。
論文 参考訳(メタデータ) (2024-03-02T21:15:24Z) - Attention-based Interactive Disentangling Network for Instance-level
Emotional Voice Conversion [81.1492897350032]
感情音声変換(Emotional Voice Conversion)は、非感情成分を保存しながら、与えられた感情に応じて音声を操作することを目的とする。
本稿では,音声変換にインスタンスワイドな感情知識を活用する,意図に基づく対話型ディスタングネットワーク(AINN)を提案する。
論文 参考訳(メタデータ) (2023-12-29T08:06:45Z) - Convoifilter: A case study of doing cocktail party speech recognition [59.80042864360884]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-22T12:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。