Fugu-MT 論文翻訳(概要): Universal Semantic Disentangled Privacy-preserving Speech Representation Learning

論文の概要: Universal Semantic Disentangled Privacy-preserving Speech Representation Learning

arxiv url: http://arxiv.org/abs/2505.13085v2
Date: Tue, 20 May 2025 10:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 12:33:37.454318
Title: Universal Semantic Disentangled Privacy-preserving Speech Representation Learning
Title（参考訳）: ユニバーサルセマンティック・ディスタングル型プライバシ保存音声表現学習
Authors: Biel Tura Vecino, Subhadeep Maji, Aravind Varier, Antonio Bonafonte, Ivan Valles, Michael Owen, Leif Rädel, Grant Strimel, Seyi Feyisetan, Roberto Barra Chicote, Ariya Rastrow, Constantinos Papayiannis, Volker Leutnant, Trevor Wood,
Abstract要約: ユニバーサル音声コーデックを用いた話者プライバシ保護表現学習手法を提案する。我々は,USCのセマンティック表現が,潜在的に識別可能な話者属性を除去しつつ,内容,韻律,感情を保存していることを示す。
参考スコア（独自算出の注目度）: 16.917963836216845
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The use of audio recordings of human speech to train LLMs poses privacy concerns due to these models' potential to generate outputs that closely resemble artifacts in the training data. In this study, we propose a speaker privacy-preserving representation learning method through the Universal Speech Codec (USC), a computationally efficient encoder-decoder model that disentangles speech into: (i) privacy-preserving semantically rich representations, capturing content and speech paralinguistics, and (ii) residual acoustic and speaker representations that enables high-fidelity reconstruction. Extensive evaluations presented show that USC's semantic representation preserves content, prosody, and sentiment, while removing potentially identifiable speaker attributes. Combining both representations, USC achieves state-of-the-art speech reconstruction. Additionally, we introduce an evaluation methodology for measuring privacy-preserving properties, aligning with perceptual tests. We compare USC against other codecs in the literature and demonstrate its effectiveness on privacy-preserving representation learning, illustrating the trade-offs of speaker anonymization, paralinguistics retention and content preservation in the learned semantic representations. Audio samples are shared in https://www.amazon.science/usc-samples.
Abstract（参考訳）: 人間の音声によるLLMの訓練における音声記録の使用は、これらのモデルがトレーニングデータのアーティファクトによく似た出力を生成する可能性があるため、プライバシー上の懸念を生じさせる。本研究では,Universal Speech Codec (USC) を用いた話者プライバシ保護表現学習手法を提案する。 (i)プライバシー保護のセマンティック・リッチ表現、コンテンツと音声パラ言語学の取得、 (II)高忠実度再構成が可能な残音・話者表現広範な評価の結果、USCのセマンティックな表現は、コンテンツ、韻律、感情を保存し、潜在的に識別可能な話者属性を除去することを示した。両表現を組み合わせることで、USCは最先端の音声再構成を実現する。さらに,プライバシ保護特性を測定するための評価手法を,知覚テストと整合して導入する。文献におけるUSCと他のコーデックを比較し,プライバシー保護表現学習の有効性を実証し,学習意味表現における話者匿名化,パラ言語的継続,コンテンツ保存のトレードオフを考察した。オーディオサンプルはhttps://www.amazon.science/usc-samplesで共有される。

関連論文リスト

Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文参考訳（メタデータ） (2025-06-11T14:36:26Z)
Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT [10.18337180909434]
非転写音声から意味のある特徴を抽出するためには,自己教師付き音声表現学習が不可欠である。本稿では,音節単位を話者情報から分離する,音声のみの自己教師型微調整手法を提案する。
論文参考訳（メタデータ） (2024-09-16T09:07:08Z)
Enhancing the Stability of LLM-based Speech Generation Systems through Self-Supervised Representations [14.437646262239612]
自己教師型音声変換(VC)アーキテクチャは、話者IDや記録条件などの定常的な特徴とは独立して、コンテンツなどのトランジッショナルな特徴を符号化し、話者不整合表現を作成するために使用することができる。テキスト・トゥ・スポーチ(TTS)のためのLLMの訓練に話者区別符号を使用すると、LLMは人間と同様にテキストからのみ音声の内容とスタイルを生成することができ、一方、話者識別はVCモデルのデコーダによって提供される。結果から,LLMの自己教師表現による訓練が4.7ppの改善をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2024-02-05T15:08:19Z)
Adversarial Speaker Disentanglement Using Unannotated External Data for Self-supervised Representation Based Voice Conversion [35.23123094710891]
SSL表現を入力した高相似性ノン・ワン音声変換法を提案する。実験の結果,本手法は教師付き手法と同等の類似性と自然性が得られることがわかった。
論文参考訳（メタデータ） (2023-05-16T04:52:29Z)
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文参考訳（メタデータ） (2023-04-24T10:15:58Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文参考訳（メタデータ） (2021-04-22T13:31:41Z)
Speech Resynthesis from Discrete Disentangled Self-Supervised Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文参考訳（メタデータ） (2021-04-01T09:20:33Z)
Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文参考訳（メタデータ） (2020-02-20T14:13:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。