論文の概要: Eta-WavLM: Efficient Speaker Identity Removal in Self-Supervised Speech Representations Using a Simple Linear Equation
- arxiv url: http://arxiv.org/abs/2505.19273v1
- Date: Sun, 25 May 2025 19:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.025172
- Title: Eta-WavLM: Efficient Speaker Identity Removal in Self-Supervised Speech Representations Using a Simple Linear Equation
- Title(参考訳): Eta-WavLM:単純線形方程式を用いた自己教師付き音声表現における話者識別の効率的な除去
- Authors: Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle, Luigi Di Caro,
- Abstract要約: 自己教師付き学習(SSL)は、注釈のないデータから意味のある表現を学習することで、音声技術における高価なラベリングへの依存を減らした。
本稿では,SSL表現を話者固有成分と話者非依存成分に線形に分解する新しいアンタングル法を提案する。
- 参考スコア(独自算出の注目度): 1.3874486202578669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised learning (SSL) has reduced the reliance on expensive labeling in speech technologies by learning meaningful representations from unannotated data. Since most SSL-based downstream tasks prioritize content information in speech, ideal representations should disentangle content from unwanted variations like speaker characteristics in the SSL representations. However, removing speaker information often degrades other speech components, and existing methods either fail to fully disentangle speaker identity or require resource-intensive models. In this paper, we propose a novel disentanglement method that linearly decomposes SSL representations into speaker-specific and speaker-independent components, effectively generating speaker disentangled representations. Comprehensive experiments show that our approach achieves speaker independence and as such, when applied to content-driven tasks such as voice conversion, our representations yield significant improvements over state-of-the-art methods.
- Abstract(参考訳): 自己教師付き学習(SSL)は、注釈のないデータから意味のある表現を学習することで、音声技術における高価なラベリングへの依存を減らした。
ほとんどのSSLベースのダウンストリームタスクは、音声中のコンテンツ情報を優先するので、理想表現は、SSL表現における話者特性のような望ましくないバリエーションからコンテンツを遠ざけるべきである。
しかし、話者情報の除去は、他の音声成分を劣化させることが多く、既存の手法では、話者のアイデンティティを完全に切り離すか、リソース集約モデルを必要とする。
本稿では、SSL表現を話者固有成分と話者非依存成分に線形に分解し、効果的に話者非絡み表現を生成する新しい非絡み込み手法を提案する。
包括的実験により,本手法は話者独立性を実現し,音声変換などのコンテンツ駆動型タスクに適用すると,その表現は最先端手法よりも大幅に向上することが示された。
関連論文リスト
- Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT [10.18337180909434]
非転写音声から意味のある特徴を抽出するためには,自己教師付き音声表現学習が不可欠である。
本稿では,音節単位を話者情報から分離する,音声のみの自己教師型微調整手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T09:07:08Z) - What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction [17.05599594354308]
音声信号は、大域的な音響特性と局所的な意味情報の両方を含むため、本質的に複雑である。
対象音声抽出のタスクでは、参照音声における大域的・局所的な意味情報の特定の要素が話者の混乱を招く可能性がある。
本稿では,この課題を克服するために,自己教師付き不整合表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-16T03:48:24Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Adversarial Speaker Disentanglement Using Unannotated External Data for
Self-supervised Representation Based Voice Conversion [35.23123094710891]
SSL表現を入力した高相似性ノン・ワン音声変換法を提案する。
実験の結果,本手法は教師付き手法と同等の類似性と自然性が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-16T04:52:29Z) - Improving Self-Supervised Speech Representations by Disentangling
Speakers [56.486084431528695]
音声における自己教師付き学習は、大規模無意味な音声コーパス上で、音声表現ネットワークを訓練することを含む。
話者を遠ざけることは非常に困難であり、スピーカー情報を削除すればコンテンツも失われる可能性がある。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
論文 参考訳(メタデータ) (2022-04-20T04:56:14Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。