論文の概要: Improving Self-Supervised Speech Representations by Disentangling
Speakers
- arxiv url: http://arxiv.org/abs/2204.09224v1
- Date: Wed, 20 Apr 2022 04:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:46:12.337168
- Title: Improving Self-Supervised Speech Representations by Disentangling
Speakers
- Title(参考訳): ディエンタングリング話者による自己教師付き音声表現の改善
- Authors: Kaizhi Qian, Yang Zhang, Heting Gao, Junrui Ni, Cheng-I Lai, David
Cox, Mark Hasegawa-Johnson, Shiyu Chang
- Abstract要約: 音声における自己教師付き学習は、大規模無意味な音声コーパス上で、音声表現ネットワークを訓練することを含む。
話者を遠ざけることは非常に困難であり、スピーカー情報を削除すればコンテンツも失われる可能性がある。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
- 参考スコア(独自算出の注目度): 56.486084431528695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning in speech involves training a speech representation
network on a large-scale unannotated speech corpus, and then applying the
learned representations to downstream tasks. Since the majority of the
downstream tasks of SSL learning in speech largely focus on the content
information in speech, the most desirable speech representations should be able
to disentangle unwanted variations, such as speaker variations, from the
content. However, disentangling speakers is very challenging, because removing
the speaker information could easily result in a loss of content as well, and
the damage of the latter usually far outweighs the benefit of the former. In
this paper, we propose a new SSL method that can achieve speaker
disentanglement without severe loss of content. Our approach is adapted from
the HuBERT framework, and incorporates disentangling mechanisms to regularize
both the teacher labels and the learned representations. We evaluate the
benefit of speaker disentanglement on a set of content-related downstream
tasks, and observe a consistent and notable performance advantage of our
speaker-disentangled representations.
- Abstract(参考訳): 音声における自己教師あり学習は、大規模無注釈音声コーパス上で音声表現ネットワークを訓練し、学習した表現を下流タスクに適用する。
音声におけるSSL学習のダウンストリームタスクの大部分は、音声中のコンテンツ情報に重点を置いているため、最も望ましい音声表現は、話者のバリエーションのような望ましくないバリエーションをコンテンツから切り離すことができる。
しかし、話者情報の削除は容易にコンテンツの損失につながる可能性があり、後者の損傷は前者の利益をはるかに上回るため、話者の分離は非常に困難である。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
提案手法は HuBERT フレームワークに適応し,教師ラベルと学習表現の両方を正規化するための切り離し機構を取り入れている。
我々は、コンテンツ関連下流タスクの集合における話者のゆがみの利点を評価し、我々の話者のゆがみ表現の一貫性と顕著な性能の利点を観察する。
関連論文リスト
- DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment [82.86363991170546]
本稿では、音声キャプションを利用して音声とテキストのモダリティのギャップを埋める記述型音声テキストアライメント手法を提案する。
我々のモデルはDynamic-SUPERBベンチマークで優れた性能を示し、特に目に見えないタスクに一般化する。
これらの知見は、説明豊かな音声キャプションを組み込むことにより、指示追従型SLMを再構築する可能性を強調した。
論文 参考訳(メタデータ) (2024-06-27T03:52:35Z) - What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - Self-Supervised Disentangled Representation Learning for Robust Target
Speech Extraction [18.63245027392657]
音声信号は、大域的な音響特性と局所的な意味情報の両方を含むため、本質的に複雑である。
対象音声抽出のタスクでは、参照音声における大域的・局所的な意味情報の特定の要素が話者の混乱を招く可能性がある。
本稿では,この課題を克服するために,自己教師付き不整合表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-16T03:48:24Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。