論文の概要: Learning Speaker Embedding with Momentum Contrast
- arxiv url: http://arxiv.org/abs/2001.01986v2
- Date: Sun, 6 Sep 2020 08:00:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:26:38.122391
- Title: Learning Speaker Embedding with Momentum Contrast
- Title(参考訳): モーメントコントラストを用いた話者埋め込み学習
- Authors: Ke Ding and Xuanji He and Guanglu Wan
- Abstract要約: 話者検証は、可変長の発話から話者識別的埋め込みを抽出する表現学習タスクとして定式化することができる。
MoCoは、最近提案された教師なしの表現学習フレームワークである。
本研究では,音声セグメントから話者埋め込みを学習するためにMoCoを適用する。
- 参考スコア(独自算出の注目度): 2.2968490668307577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker verification can be formulated as a representation learning task,
where speaker-discriminative embeddings are extracted from utterances of
variable lengths. Momentum Contrast (MoCo) is a recently proposed unsupervised
representation learning framework, and has shown its effectiveness for learning
good feature representation for downstream vision tasks. In this work, we apply
MoCo to learn speaker embedding from speech segments. We explore MoCo for both
unsupervised learning and pretraining settings. In the unsupervised scenario,
embedding is learned by MoCo from audio data without using any speaker specific
information. On a large scale dataset with $2,500$ speakers, MoCo can achieve
EER $4.275\%$ trained unsupervisedly, and the EER can decrease further to
$3.58\%$ if extra unlabelled data are used. In the pretraining scenario,
encoder trained by MoCo is used to initialize the downstream supervised
training. With finetuning on the MoCo trained model, the equal error rate (EER)
reduces $13.7\%$ relative ($1.44\%$ to $1.242\%$) compared to a carefully tuned
baseline training from scratch. Comparative study confirms the effectiveness of
MoCo learning good speaker embedding.
- Abstract(参考訳): 話者検証は、可変長の発話から話者識別的埋め込みを抽出する表現学習タスクとして定式化することができる。
Momentum Contrast (MoCo)は、最近提案された教師なし表現学習フレームワークであり、下流視覚タスクのための優れた特徴表現を学習する効果を示した。
本研究では,音声セグメントから話者埋め込みを学習するためにMoCoを適用する。
教師なし学習と事前学習のためのMoCoについて検討する。
教師なしのシナリオでは、話者固有の情報を用いることなく、オーディオデータからMoCoによって埋め込みが学習される。
2500ドルのスピーカーを持つ大規模データセットでは、mocoは教師なしで訓練されたeer 4.275\%$を達成でき、追加のラベルなしデータを使用するとeerはさらに3.58\%$となる。
事前トレーニングシナリオでは、MoCoによってトレーニングされたエンコーダを使用して、下流の教師ありトレーニングを初期化する。
mocoトレーニングモデルの微調整により、eer(equal error rate)は、スクラッチから慎重に調整されたベースライントレーニングと比較して、相対値(1.44\%$から1.242\%$)で13.7\%削減される。
比較研究により,moco学習による話者埋め込みの有効性が確認された。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Toward Inference-optimal Mixture-of-Expert Large Language Models [55.96674056805708]
大規模言語モデル(LLM)のスケーリング法則について検討する。
少数の(4/8)専門家を持つMoEsは、同じパフォーマンスで最も効率的なソリューションであるが、トレーニングでは2.5-3.5倍のコストがかかる。
検証損失以外の指標として推論効率を導入することで,MoEのスケーリング法則の改正を提案する。
論文 参考訳(メタデータ) (2024-04-03T16:33:42Z) - Speech Separation based on Contrastive Learning and Deep Modularization [3.2634122554914002]
本稿では,コントラスト学習を用いてフレームの表現を確立し,下流の深いモジュール化タスクにおいて学習された表現を使用する。
そこで我々は,与えられた話者に属するフレーム間の距離を最小化するために,自己教師型学習を実装した。
学習した表現は、下流の深いモジュール化タスクで、話者のアイデンティティに基づいたクラスタフレームに使用される。
論文 参考訳(メタデータ) (2023-05-18T02:19:05Z) - Exploring Representation Learning for Small-Footprint Keyword Spotting [11.586285744728068]
KWSの主な課題は、ラベル付きデータと限られたデバイスリソースである。
これらの課題に対処するために、自己指導型コントラスト学習と事前学習モデルによる自己学習によるKWSの表現学習について検討する。
音声コマンドデータセットの実験では、自己学習型WVCモジュールと自己教師型LGCSiamモジュールが精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T07:09:26Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Speech Augmentation Based Unsupervised Learning for Keyword Spotting [29.87252331166527]
我々は、KWSタスクを実行するためにCNN-Attentionアーキテクチャを設計した。
また,KWSモデルのロバスト性を改善するための教師なし学習手法も提案した。
我々の実験では、拡張に基づく教師なし学習により、我々のKWSモデルは、他の教師なし手法よりも優れた性能を達成する。
論文 参考訳(メタデータ) (2022-05-28T04:11:31Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - MoPro: Webly Supervised Learning with Momentum Prototypes [140.76848620407168]
本稿では,教師付き学習におけるアノテーションの可読性を損なうことなく,Webで教師付き表現学習手法を提案する。
MoProは、弱いラベル付きノイズデータセットであるWebVisionで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-17T00:59:59Z) - DropClass and DropAdapt: Dropping classes for deep speaker
representation learning [33.60058873783114]
本研究は,授業中にクラスをドロップするという概念に基づいて,埋め込み学習の2つのアプローチを提案する。
両手法が話者検証タスクにおいて性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-02T18:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。