論文の概要: Bootstrap Equilibrium and Probabilistic Speaker Representation Learning
for Self-supervised Speaker Verification
- arxiv url: http://arxiv.org/abs/2112.08929v1
- Date: Thu, 16 Dec 2021 14:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-17 14:55:55.471422
- Title: Bootstrap Equilibrium and Probabilistic Speaker Representation Learning
for Self-supervised Speaker Verification
- Title(参考訳): 自己教師型話者検証のためのブートストラップ平衡と確率的話者表現学習
- Authors: Sung Hwan Mun, Min Hyun Han, Dongjune Lee, Jihwan Kim, and Nam Soo Kim
- Abstract要約: 本稿では,自己教師型話者表現学習戦略を提案する。
フロントエンドでは,一様正規化項を用いたブートストラップ学習方式を用いて話者表現を学習する。
バックエンドでは、同一話者に属する音声サンプル間の相互確率スコアを最大化することにより、確率的話者埋め込みを推定する。
- 参考スコア(独自算出の注目度): 15.652180150706002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose self-supervised speaker representation learning
strategies, which comprise of a bootstrap equilibrium speaker representation
learning in the front-end and an uncertainty-aware probabilistic speaker
embedding training in the back-end. In the front-end stage, we learn the
speaker representations via the bootstrap training scheme with the uniformity
regularization term. In the back-end stage, the probabilistic speaker
embeddings are estimated by maximizing the mutual likelihood score between the
speech samples belonging to the same speaker, which provide not only speaker
representations but also data uncertainty. Experimental results show that the
proposed bootstrap equilibrium training strategy can effectively help learn the
speaker representations and outperforms the conventional methods based on
contrastive learning. Also, we demonstrate that the integrated two-stage
framework further improves the speaker verification performance on the
VoxCeleb1 test set in terms of EER and MinDCF.
- Abstract(参考訳): 本稿では、フロントエンドにおけるブートストラップ平衡話者表現学習と、バックエンドにおける不確実性を考慮した確率的話者埋め込み訓練からなる自己教師型話者表現学習戦略を提案する。
フロントエンドステージでは、一様正規化項を持つブートストラップトレーニングスキームを通じて話者表現を学ぶ。
バックエンド段階では、同一話者に属する音声サンプル間における確率的確率スコアを最大化し、話者表現だけでなくデータ不確実性も提供する確率的話者埋め込みを推定する。
実験の結果, 提案するブートストラップ平衡学習戦略は, 話者表現を効果的に学習し, コントラスト学習に基づく従来の方法よりも優れていた。
また、統合された2段階フレームワークにより、EERおよびMinDCFの観点からVoxCeleb1テストセットにおける話者検証性能がさらに向上することを示した。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - A Reinforcement Learning Framework for Online Speaker Diarization [18.181920080789475]
話者ダイアリゼーション(英語: Speaker Diarization)とは、各時刻スタンプで話者の身元を示す音声やビデオの録音をラベル付けするタスクである。
本稿では,事前登録や事前学習を必要とせず,リアルタイムなマルチ話者ダイアリゼーションと認識を実現する機械学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-21T15:42:25Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Zero-Shot Personalized Speech Enhancement through Speaker-Informed Model
Selection [25.05285328404576]
特定のテストタイムスピーカーに対する音声の最適化は、パフォーマンスを改善し、ランタイムの複雑さを低減する。
本稿では,各専門モジュールが個別の学習セット話者の分割から雑音発声を識別するアンサンブルモデルを提案する。
トレーニングセットのスピーカーを非オーバーラップ意味的に類似したグループにグルーピングすることは、非自明で不明確です。
論文 参考訳(メタデータ) (2021-05-08T00:15:57Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Speaker Separation Using Speaker Inventories and Estimated Speech [78.57067876891253]
話者在庫(SSUSI)と推定音声(SSUES)を用いた話者分離を提案する。
置換不変訓練(PIT)と音声抽出の利点を組み合わせることで、SSUSIは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-20T18:15:45Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。