Fugu-MT 論文翻訳(概要): Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering

論文の概要: Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering

arxiv url: http://arxiv.org/abs/2305.11072v1
Date: Thu, 18 May 2023 15:59:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-19 14:20:45.473654
Title: Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering
Title（参考訳）: 話者不変クラスタリングによるコンテンツ表現改善のための自己教師型微調整
Authors: Heng-Jui Chang, Alexander H. Liu, James Glass
Abstract要約: 話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。 Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
参考スコア（独自算出の注目度）: 78.2927924732142
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised speech representation models have succeeded in various tasks, but improving them for content-related problems using unlabeled data is challenging. We propose speaker-invariant clustering (Spin), a novel self-supervised learning method that clusters speech representations and performs swapped prediction between the original and speaker-perturbed utterances. Spin disentangles speaker information and preserves content representations with just 45 minutes of fine-tuning on a single GPU. Spin improves pre-trained networks and outperforms prior methods in speech recognition and acoustic unit discovery.
Abstract（参考訳）: 自己教師付き音声表現モデルは様々なタスクに成功しているが、ラベルなしデータを用いたコンテンツ関連問題に対する改善は難しい。本稿では,音声表現をクラスタリングし,原音声と話者摂動発話間のスワップ予測を行う,新しい自己教師付き学習手法であるspinを提案する。 spin disentangleはスピーカー情報とコンテンツ表現を単一のgpu上で45分間の微調整で保存する。 Spinは事前訓練されたネットワークを改善し、音声認識や音響ユニット発見における先行手法より優れている。

関連論文リスト

Disentangling Voice and Content with Self-Supervision for Speaker Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文参考訳（メタデータ） (2023-10-02T12:02:07Z)
An analysis on the effects of speaker embedding choice in non auto-regressive TTS [4.619541348328938]
本稿では,非自己回帰的分解型マルチ話者音声合成アーキテクチャが,異なる話者埋め込みセットに存在する情報をどのように活用するかを理解するための最初の試みを紹介する。使用済みの埋め込みと学習戦略にかかわらず、ネットワークは様々な話者識別を等しく扱うことができることを示す。
論文参考訳（メタデータ） (2023-07-19T10:57:54Z)
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文参考訳（メタデータ） (2023-04-24T10:15:58Z)
SPADE: Self-supervised Pretraining for Acoustic DisEntanglement [2.294014185517203]
室内音響を音声から切り離す自己教師型手法を提案する。提案手法は,ラベル付きトレーニングデータが少ない場合に,ベースライン上での性能を著しく向上することを示す。
論文参考訳（メタデータ） (2023-02-03T01:36:38Z)
VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文参考訳（メタデータ） (2021-06-18T13:50:38Z)
Self-supervised Text-independent Speaker Verification using Prototypical Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文参考訳（メタデータ） (2020-12-13T23:23:39Z)
Augmentation adversarial training for self-supervised speaker recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。 VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文参考訳（メタデータ） (2020-07-23T15:49:52Z)
Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文参考訳（メタデータ） (2020-04-13T17:16:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。