Fugu-MT 論文翻訳(概要): Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

論文の概要: Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

arxiv url: http://arxiv.org/abs/2603.08179v1
Date: Mon, 09 Mar 2026 10:01:24 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-10 15:13:15.751691
Title: Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models
Title（参考訳）: プライバシー保護型全二重音声対話モデル
Authors: Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng,
Abstract要約: 以上の結果から,SALM-Duplexリークは全層にわたって持続し,SALM-Duplexは初期層に強いリークを示す一方,Moshiリークは均一であり,リンク性は最初の数回で急上昇することがわかった。 StreamVoiceAnon:フロントエンド(AnonW2W)と機能ドメイン置換(AnonW2F)という2つのストリーミング匿名化設定を提案する。
参考スコア（独自算出の注目度）: 62.35104196350636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: End-to-end full-duplex speech models feed user audio through an always-on LLM backbone, yet the speaker privacy implications of their hidden representations remain unexamined. Following the VoicePrivacy 2024 protocol with a lazy-informed attacker, we show that the hidden states of SALM-Duplex and Moshi leak substantial speaker identity across all transformer layers. Layer-wise and turn-wise analyses reveal that leakage persists across all layers, with SALM-Duplex showing stronger leakage in early layers while Moshi leaks uniformly, and that Linkability rises sharply within the first few turns. We propose two streaming anonymization setups using Stream-Voice-Anon: a waveform-level front-end (Anon-W2W) and a feature-domain replacement (Anon-W2F). Anon-W2F raises EER by over 3.5x relative to the discrete encoder baseline (11.2% to 41.0%), approaching the 50% random-chance ceiling, while Anon-W2W retains 78-93% of baseline sBERT across setups with sub-second response latency (FRL under 0.8 s).
Abstract（参考訳）: エンドツーエンドのフルダブルプレックス音声モデルは、常時オンのLCMバックボーンを通じてユーザーの音声をフィードするが、隠れた表現に対する話者のプライバシーの影響は未確認のままである。遅延インフォームド攻撃によるVoicePrivacy 2024プロトコルに続いて, SALM-Duplex と Moshi の隠蔽状態がトランスフォーマ層全体の話者識別をリークしていることを示す。 SALM-Duplexは初期の層でより強いリークを示し、Moshiは均一にリークし、Linkabilityは最初の数回で急上昇する。本稿では,Stream-Voice-Anon を用いて,波形レベルのフロントエンド (Anon-W2W) と特徴領域置換 (Anon-W2F) の2つの匿名化構成を提案する。 Anon-W2FはEERを、離散エンコーダベースライン(11.2%から41.0%)と比較して3.5倍以上上昇させ、50%ランダムチャンス天井に近づき、Anon-W2Wは、サブ秒応答待ち時間(FRL 0.8秒未満)のセットアップでベースラインsBERTの78-93%を保持する。

論文の概要: Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

関連論文リスト