論文の概要: Universal Semantic Disentangled Privacy-preserving Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2505.13085v2
- Date: Tue, 20 May 2025 10:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.454318
- Title: Universal Semantic Disentangled Privacy-preserving Speech Representation Learning
- Title(参考訳): ユニバーサルセマンティック・ディスタングル型プライバシ保存音声表現学習
- Authors: Biel Tura Vecino, Subhadeep Maji, Aravind Varier, Antonio Bonafonte, Ivan Valles, Michael Owen, Leif Rädel, Grant Strimel, Seyi Feyisetan, Roberto Barra Chicote, Ariya Rastrow, Constantinos Papayiannis, Volker Leutnant, Trevor Wood,
- Abstract要約: ユニバーサル音声コーデックを用いた話者プライバシ保護表現学習手法を提案する。
我々は,USCのセマンティック表現が,潜在的に識別可能な話者属性を除去しつつ,内容,韻律,感情を保存していることを示す。
- 参考スコア(独自算出の注目度): 16.917963836216845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of audio recordings of human speech to train LLMs poses privacy concerns due to these models' potential to generate outputs that closely resemble artifacts in the training data. In this study, we propose a speaker privacy-preserving representation learning method through the Universal Speech Codec (USC), a computationally efficient encoder-decoder model that disentangles speech into: (i) privacy-preserving semantically rich representations, capturing content and speech paralinguistics, and (ii) residual acoustic and speaker representations that enables high-fidelity reconstruction. Extensive evaluations presented show that USC's semantic representation preserves content, prosody, and sentiment, while removing potentially identifiable speaker attributes. Combining both representations, USC achieves state-of-the-art speech reconstruction. Additionally, we introduce an evaluation methodology for measuring privacy-preserving properties, aligning with perceptual tests. We compare USC against other codecs in the literature and demonstrate its effectiveness on privacy-preserving representation learning, illustrating the trade-offs of speaker anonymization, paralinguistics retention and content preservation in the learned semantic representations. Audio samples are shared in https://www.amazon.science/usc-samples.
- Abstract(参考訳): 人間の音声によるLLMの訓練における音声記録の使用は、これらのモデルがトレーニングデータのアーティファクトによく似た出力を生成する可能性があるため、プライバシー上の懸念を生じさせる。
本研究では,Universal Speech Codec (USC) を用いた話者プライバシ保護表現学習手法を提案する。
(i)プライバシー保護のセマンティック・リッチ表現、コンテンツと音声パラ言語学の取得、
(II)高忠実度再構成が可能な残音・話者表現
広範な評価の結果、USCのセマンティックな表現は、コンテンツ、韻律、感情を保存し、潜在的に識別可能な話者属性を除去することを示した。
両表現を組み合わせることで、USCは最先端の音声再構成を実現する。
さらに,プライバシ保護特性を測定するための評価手法を,知覚テストと整合して導入する。
文献におけるUSCと他のコーデックを比較し,プライバシー保護表現学習の有効性を実証し,学習意味表現における話者匿名化,パラ言語的継続,コンテンツ保存のトレードオフを考察した。
オーディオサンプルはhttps://www.amazon.science/usc-samplesで共有される。
関連論文リスト
- Enhancing the Stability of LLM-based Speech Generation Systems through
Self-Supervised Representations [14.437646262239612]
自己教師型音声変換(VC)アーキテクチャは、話者IDや記録条件などの定常的な特徴とは独立して、コンテンツなどのトランジッショナルな特徴を符号化し、話者不整合表現を作成するために使用することができる。
テキスト・トゥ・スポーチ(TTS)のためのLLMの訓練に話者区別符号を使用すると、LLMは人間と同様にテキストからのみ音声の内容とスタイルを生成することができ、一方、話者識別はVCモデルのデコーダによって提供される。
結果から,LLMの自己教師表現による訓練が4.7ppの改善をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2024-02-05T15:08:19Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。