論文の概要: UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training
- arxiv url: http://arxiv.org/abs/2110.05752v1
- Date: Tue, 12 Oct 2021 05:43:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:42:03.153604
- Title: UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training
- Title(参考訳): UniSpeech-SAT:話者による事前学習によるユニバーサル音声表現学習
- Authors: Sanyuan Chen, Yu Wu, Chengyi Wang, Zhengyang Chen, Zhuo Chen, Shujie
Liu, Jian Wu, Yao Qian, Furu Wei, Jinyu Li, Xiangzhan Yu
- Abstract要約: 教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
- 参考スコア(独自算出の注目度): 72.004873454347
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning (SSL) is a long-standing goal for speech processing,
since it utilizes large-scale unlabeled data and avoids extensive human
labeling. Recent years witness great successes in applying self-supervised
learning in speech recognition, while limited exploration was attempted in
applying SSL for modeling speaker characteristics. In this paper, we aim to
improve the existing SSL framework for speaker representation learning. Two
methods are introduced for enhancing the unsupervised speaker information
extraction. First, we apply the multi-task learning to the current SSL
framework, where we integrate the utterance-wise contrastive loss with the SSL
objective function. Second, for better speaker discrimination, we propose an
utterance mixing strategy for data augmentation, where additional overlapped
utterances are created unsupervisely and incorporate during training. We
integrate the proposed methods into the HuBERT framework. Experiment results on
SUPERB benchmark show that the proposed system achieves state-of-the-art
performance in universal representation learning, especially for speaker
identification oriented tasks. An ablation study is performed verifying the
efficacy of each proposed method. Finally, we scale up training dataset to 94
thousand hours public audio data and achieve further performance improvement in
all SUPERB tasks.
- Abstract(参考訳): ssl(self-supervised learning)は、大規模なラベルなしデータを使用し、広範なラベル付けを回避するため、音声処理の長年の目標である。
近年,音声認識における自己教師型学習の適用は,話者特性のモデル化にSSLを適用した限定的な探索が試みられ,大きな成功を収めている。
本稿では,話者表現学習のための既存のSSLフレームワークの改善を目指す。
教師なし話者情報抽出の2つの手法が導入された。
まず、マルチタスク学習を現在のSSLフレームワークに適用し、SSLの目的関数と発話的に対照的な損失を統合する。
第二に, 話者識別の改善のために, 教師なし, 訓練中に重なり合った発話が生成されるデータ拡張のための発話混合戦略を提案する。
提案手法を HuBERT フレームワークに統合する。
superbベンチマークによる実験の結果,本システムは,話者識別指向タスクにおいて,普遍表現学習において最先端のパフォーマンスを達成していることがわかった。
それぞれの方法の有効性を検証するアブレーション研究を行う。
最後に、トレーニングデータセットを94000時間公開オーディオデータにスケールアップし、すべてのSUPERBタスクでさらなるパフォーマンス向上を実現する。
関連論文リスト
- SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Why does Self-Supervised Learning for Speech Recognition Benefit Speaker
Recognition? [86.53044183309824]
話者関連課題における自己教師型学習の成功につながる要因について検討する。
Voxceleb-1データセットにおける実験結果から,SVタスクに対するSSLの利点は,マスクによる予測損失,データスケール,モデルサイズの組み合わせによるものであることが示唆された。
論文 参考訳(メタデータ) (2022-04-27T08:35:57Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。