論文の概要: Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models
- arxiv url: http://arxiv.org/abs/2603.08179v1
- Date: Mon, 09 Mar 2026 10:01:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.751691
- Title: Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models
- Title(参考訳): プライバシー保護型全二重音声対話モデル
- Authors: Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng,
- Abstract要約: 以上の結果から,SALM-Duplexリークは全層にわたって持続し,SALM-Duplexは初期層に強いリークを示す一方,Moshiリークは均一であり,リンク性は最初の数回で急上昇することがわかった。
StreamVoiceAnon:フロントエンド(AnonW2W)と機能ドメイン置換(AnonW2F)という2つのストリーミング匿名化設定を提案する。
- 参考スコア(独自算出の注目度): 62.35104196350636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end full-duplex speech models feed user audio through an always-on LLM backbone, yet the speaker privacy implications of their hidden representations remain unexamined. Following the VoicePrivacy 2024 protocol with a lazy-informed attacker, we show that the hidden states of SALM-Duplex and Moshi leak substantial speaker identity across all transformer layers. Layer-wise and turn-wise analyses reveal that leakage persists across all layers, with SALM-Duplex showing stronger leakage in early layers while Moshi leaks uniformly, and that Linkability rises sharply within the first few turns. We propose two streaming anonymization setups using Stream-Voice-Anon: a waveform-level front-end (Anon-W2W) and a feature-domain replacement (Anon-W2F). Anon-W2F raises EER by over 3.5x relative to the discrete encoder baseline (11.2% to 41.0%), approaching the 50% random-chance ceiling, while Anon-W2W retains 78-93% of baseline sBERT across setups with sub-second response latency (FRL under 0.8 s).
- Abstract(参考訳): エンドツーエンドのフルダブルプレックス音声モデルは、常時オンのLCMバックボーンを通じてユーザーの音声をフィードするが、隠れた表現に対する話者のプライバシーの影響は未確認のままである。
遅延インフォームド攻撃によるVoicePrivacy 2024プロトコルに続いて, SALM-Duplex と Moshi の隠蔽状態がトランスフォーマ層全体の話者識別をリークしていることを示す。
SALM-Duplexは初期の層でより強いリークを示し、Moshiは均一にリークし、Linkabilityは最初の数回で急上昇する。
本稿では,Stream-Voice-Anon を用いて,波形レベルのフロントエンド (Anon-W2W) と特徴領域置換 (Anon-W2F) の2つの匿名化構成を提案する。
Anon-W2FはEERを、離散エンコーダベースライン(11.2%から41.0%)と比較して3.5倍以上上昇させ、50%ランダムチャンス天井に近づき、Anon-W2Wは、サブ秒応答待ち時間(FRL 0.8秒未満)のセットアップでベースラインsBERTの78-93%を保持する。
関連論文リスト
- StreamVoiceAnon+: Emotion-Preserving Streaming Speaker Anonymization via Frame-Level Acoustic Distillation [56.49717639074325]
ストリーミング話者匿名化(SA)における感情コンテンツ保存の課題に対処する。
音響トークン隠蔽状態におけるフレームレベルの感情蒸留と同一話者からのニュートラル感情発話対を用いた教師付き微調整を提案する。
VoicePrivacy 2024プロトコルでは、49.2%のUAR(感情保存)と5.77%のWER(インテリジェンス)を実現している。
論文 参考訳(メタデータ) (2026-03-06T09:30:20Z) - Stream-Voice-Anon: Enhancing Utility of Real-Time Speaker Anonymization via Neural Audio Codec and Language Models [51.7170633585748]
Stream-Voice-Anonは、ストリーミングスピーカーの匿名化に特化して、現代的なLMベースのNACアーキテクチャを適用している。
匿名化アプローチには、擬似話者表現サンプリング、話者埋め込みミキシング、多様なプロンプト選択戦略が組み込まれている。
VoicePrivacy 2024 Challengeプロトコルの下で、Stream-Voice-Anonは知性を大幅に改善した。
論文 参考訳(メタデータ) (2026-01-20T13:23:44Z) - Protecting Bystander Privacy via Selective Hearing in Audio LLMs [14.82452941000742]
選択的聴覚評価のための最初のベンチマークであるSH-Benchを紹介する。
SH-Benchには3,968種類のマルチスピーカーオーディオミキシングが含まれている。
また、Bystander Privacy Fine-Tuning(BPFT)という、Bystander関連のクエリを拒否するモデルを教える新しいトレーニングパイプラインも紹介する。
論文 参考訳(メタデータ) (2025-12-06T10:24:04Z) - Backdoor Attacks Against Speech Language Models [63.07317091368079]
本研究は,音声認識モデルに対する音声バックドア攻撃に関する最初の体系的研究である。
4つの音声エンコーダと3つのデータセットにまたがってその効果を実証し、4つのタスクをカバーした。
汚染された事前訓練エンコーダの脅威を軽減できる微調整型防御法を提案する。
論文 参考訳(メタデータ) (2025-10-01T17:45:04Z) - VoxGuard: Evaluating User and Attribute Privacy in Speech via Membership Inference Attacks [51.68795949691009]
差分プライバシとメンバシップ推論に基づくフレームワークであるVoxGuardを紹介した。
属性については, 匿名化後も, 性別やアクセントをほぼ完全精度で再現できることが示唆された。
以上の結果から,EERはリークを著しく過小評価し,低FPR評価の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-09-22T20:57:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。