論文の概要: Improving Self-Supervised Speech Representations by Disentangling
Speakers
- arxiv url: http://arxiv.org/abs/2204.09224v1
- Date: Wed, 20 Apr 2022 04:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 15:46:12.337168
- Title: Improving Self-Supervised Speech Representations by Disentangling
Speakers
- Title(参考訳): ディエンタングリング話者による自己教師付き音声表現の改善
- Authors: Kaizhi Qian, Yang Zhang, Heting Gao, Junrui Ni, Cheng-I Lai, David
Cox, Mark Hasegawa-Johnson, Shiyu Chang
- Abstract要約: 音声における自己教師付き学習は、大規模無意味な音声コーパス上で、音声表現ネットワークを訓練することを含む。
話者を遠ざけることは非常に困難であり、スピーカー情報を削除すればコンテンツも失われる可能性がある。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
- 参考スコア(独自算出の注目度): 56.486084431528695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning in speech involves training a speech representation
network on a large-scale unannotated speech corpus, and then applying the
learned representations to downstream tasks. Since the majority of the
downstream tasks of SSL learning in speech largely focus on the content
information in speech, the most desirable speech representations should be able
to disentangle unwanted variations, such as speaker variations, from the
content. However, disentangling speakers is very challenging, because removing
the speaker information could easily result in a loss of content as well, and
the damage of the latter usually far outweighs the benefit of the former. In
this paper, we propose a new SSL method that can achieve speaker
disentanglement without severe loss of content. Our approach is adapted from
the HuBERT framework, and incorporates disentangling mechanisms to regularize
both the teacher labels and the learned representations. We evaluate the
benefit of speaker disentanglement on a set of content-related downstream
tasks, and observe a consistent and notable performance advantage of our
speaker-disentangled representations.
- Abstract(参考訳): 音声における自己教師あり学習は、大規模無注釈音声コーパス上で音声表現ネットワークを訓練し、学習した表現を下流タスクに適用する。
音声におけるSSL学習のダウンストリームタスクの大部分は、音声中のコンテンツ情報に重点を置いているため、最も望ましい音声表現は、話者のバリエーションのような望ましくないバリエーションをコンテンツから切り離すことができる。
しかし、話者情報の削除は容易にコンテンツの損失につながる可能性があり、後者の損傷は前者の利益をはるかに上回るため、話者の分離は非常に困難である。
本稿では,コンテンツが著しく失われることなく,話者のゆがみを解消できる新しいSSL手法を提案する。
提案手法は HuBERT フレームワークに適応し,教師ラベルと学習表現の両方を正規化するための切り離し機構を取り入れている。
我々は、コンテンツ関連下流タスクの集合における話者のゆがみの利点を評価し、我々の話者のゆがみ表現の一貫性と顕著な性能の利点を観察する。
関連論文リスト
- Self-Powered LLM Modality Expansion for Large Speech-Text Models [62.27700381806554]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスを示す。
本研究は,バニラ調律の限界に対処して,LSM訓練における音声データセットの利用を改良することを目的とする。
そこで本研究では,モデル自体が生成する拡張音声認識データを利用して,より効果的な命令チューニングを行う自己力 LSM を提案する。
論文 参考訳(メタデータ) (2024-10-04T04:34:24Z) - Self-Supervised Syllable Discovery Based on Speaker-Disentangled HuBERT [10.18337180909434]
非転写音声から意味のある特徴を抽出するためには,自己教師付き音声表現学習が不可欠である。
本稿では,音節単位を話者情報から分離する,音声のみの自己教師型微調整手法を提案する。
論文 参考訳(メタデータ) (2024-09-16T09:07:08Z) - What Do Self-Supervised Speech and Speaker Models Learn? New Findings
From a Cross Model Layer-Wise Analysis [44.93152068353389]
自己教師付き学習(SSL)は、意味のある音声表現を学習するために注目を集めている。
話者SSLモデルは、主に話者表現のための発話レベルの訓練目標を採用する。
論文 参考訳(メタデータ) (2024-01-31T07:23:22Z) - Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction [17.05599594354308]
音声信号は、大域的な音響特性と局所的な意味情報の両方を含むため、本質的に複雑である。
対象音声抽出のタスクでは、参照音声における大域的・局所的な意味情報の特定の要素が話者の混乱を招く可能性がある。
本稿では,この課題を克服するために,自己教師付き不整合表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-16T03:48:24Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。