論文の概要: Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning
- arxiv url: http://arxiv.org/abs/2012.07178v2
- Date: Sun, 14 Feb 2021 05:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 13:36:31.805553
- Title: Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning
- Title(参考訳): モーメントコントラスト学習を用いた自己教師付きテキスト非依存話者検証
- Authors: Wei Xia, Chunlei Zhang, Chao Weng, Meng Yu, Dong Yu
- Abstract要約: モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
- 参考スコア(独自算出の注目度): 58.14807331265752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we investigate self-supervised representation learning for
speaker verification (SV). First, we examine a simple contrastive learning
approach (SimCLR) with a momentum contrastive (MoCo) learning framework, where
the MoCo speaker embedding system utilizes a queue to maintain a large set of
negative examples. We show that better speaker embeddings can be learned by
momentum contrastive learning. Next, alternative augmentation strategies are
explored to normalize extrinsic speaker variabilities of two random segments
from the same speech utterance. Specifically, augmentation in the waveform
largely improves the speaker representations for SV tasks. The proposed MoCo
speaker embedding is further improved when a prototypical memory bank is
introduced, which encourages the speaker embeddings to be closer to their
assigned prototypes with an intermediate clustering step. In addition, we
generalize the self-supervised framework to a semi-supervised scenario where
only a small portion of the data is labeled. Comprehensive experiments on the
Voxceleb dataset demonstrate that our proposed self-supervised approach
achieves competitive performance compared with existing techniques, and can
approach fully supervised results with partially labeled data.
- Abstract(参考訳): 本研究では,話者検証(SV)のための自己指導型表現学習について検討する。
まず、モーメントコントラスト学習フレームワーク(MoCo)を用いた単純なコントラスト学習手法(SimCLR)について検討する。
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
次に、同じ発話から2つのランダムセグメントの外部話者変動を正規化するために、代替拡張戦略を検討する。
具体的には、波形の増大はSVタスクの話者表現を大幅に改善する。
提案するmoco話者埋め込みは,先駆的なメモリバンクの導入によってさらに改善され,中間クラスタリングステップで話者埋め込みが割り当てられたプロトタイプに近づくように促される。
さらに,自己教師付きフレームワークを,データのごく一部しかラベル付けされていない半教師付きシナリオに一般化する。
voxcelebデータセットに関する包括的実験により,提案手法が既存の手法と比較して競争性能を達成し,部分的ラベル付きデータを用いて完全な教師付き結果にアプローチできることが証明された。
関連論文リスト
- Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Quantitative Evidence on Overlooked Aspects of Enrollment Speaker
Embeddings for Target Speaker Separation [14.013049471563141]
単一チャネル話者分離は、話者の登録発話を与えられた複数の話者の混合から話者の声を抽出することを目的としている。
典型的なディープラーニングTSSフレームワークは、登録話者埋め込みを取得する上流モデルと、埋め込み上で分離条件を実行する下流モデルで構成されている。
論文 参考訳(メタデータ) (2022-10-23T07:08:46Z) - Label-Efficient Self-Supervised Speaker Verification With Information
Maximization and Contrastive Learning [0.0]
生音声から直接表現を学習することによる話者検証のための自己教師型学習について検討する。
我々のアプローチは、最近の情報学習フレームワークと集中的なデータ前処理ステップに基づいています。
論文 参考訳(メタデータ) (2022-07-12T13:01:55Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Bootstrap Equilibrium and Probabilistic Speaker Representation Learning
for Self-supervised Speaker Verification [15.652180150706002]
本稿では,自己教師型話者表現学習戦略を提案する。
フロントエンドでは,一様正規化項を用いたブートストラップ学習方式を用いて話者表現を学習する。
バックエンドでは、同一話者に属する音声サンプル間の相互確率スコアを最大化することにより、確率的話者埋め込みを推定する。
論文 参考訳(メタデータ) (2021-12-16T14:55:44Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Contrastive Separative Coding for Self-supervised Representation
Learning [37.697375719184926]
CSC(Contrastive Separative Coding)という自己監督型学習手法を提案する。
まず、共有分離および判別埋め込みを抽出するために、マルチタスク分離エンコーダを構築する。
第2に,様々な干渉条件で話者表現を行う強力なクロスアテンション機構を提案する。
論文 参考訳(メタデータ) (2021-03-01T07:32:00Z) - Augmentation adversarial training for self-supervised speaker
recognition [49.47756927090593]
話者ラベルのない頑健な話者認識モデルを訓練する。
VoxCelebとVOiCESデータセットの実験は、セルフスーパービジョンを使用した以前の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-07-23T15:49:52Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。