論文の概要: Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs
- arxiv url: http://arxiv.org/abs/2004.02863v5
- Date: Tue, 11 Aug 2020 02:21:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 06:09:57.586321
- Title: Meta-Learning for Short Utterance Speaker Recognition with Imbalance
Length Pairs
- Title(参考訳): 不平衡長ペアを用いた短発話話者認識のためのメタラーニング
- Authors: Seong Min Kye, Youngmoon Jung, Hae Beom Lee, Sung Ju Hwang, Hoirin Kim
- Abstract要約: 不均衡長ペアのためのメタラーニングフレームワークを提案する。
長い発話のサポートセットと様々な長さの短い発話のクエリセットでトレーニングする。
これら2つの学習スキームを組み合わせることで、既存の最先端話者検証モデルよりも優れた性能が得られる。
- 参考スコア(独自算出の注目度): 65.28795726837386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practical settings, a speaker recognition system needs to identify a
speaker given a short utterance, while the enrollment utterance may be
relatively long. However, existing speaker recognition models perform poorly
with such short utterances. To solve this problem, we introduce a meta-learning
framework for imbalance length pairs. Specifically, we use a Prototypical
Networks and train it with a support set of long utterances and a query set of
short utterances of varying lengths. Further, since optimizing only for the
classes in the given episode may be insufficient for learning discriminative
embeddings for unseen classes, we additionally enforce the model to classify
both the support and the query set against the entire set of classes in the
training set. By combining these two learning schemes, our model outperforms
existing state-of-the-art speaker verification models learned with a standard
supervised learning framework on short utterance (1-2 seconds) on the VoxCeleb
datasets. We also validate our proposed model for unseen speaker
identification, on which it also achieves significant performance gains over
the existing approaches. The codes are available at
https://github.com/seongmin-kye/meta-SR.
- Abstract(参考訳): 実践的な設定では、話者認識システムは短い発話の話者を識別する必要があるが、登録発話は比較的長い場合もある。
しかし、既存の話者認識モデルはそのような短い発話では不十分である。
この問題を解決するために,不均衡長ペアのためのメタラーニングフレームワークを提案する。
具体的には、プロトタイプネットワークを使用して、長い発話と様々な長さの短い発話のクエリセットからなるサポートセットでトレーニングする。
さらに、各エピソードのクラスのみを最適化することは、未確認のクラスに対する識別的埋め込みを学習するには不十分である可能性があるため、トレーニングセット内のクラス全体に対するサポートとクエリセットの両方を分類するために、モデルをさらに強制する。
これら2つの学習スキームを組み合わせることで,voxcelebデータセットの短い発話(1-2秒)に関する標準教師付き学習フレームワークで学習した,既存の最先端話者検証モデルよりも優れる。
また,提案した話者識別モデルの有効性を検証し,既存手法よりも高い性能向上を実現した。
コードはhttps://github.com/seongmin-kye/meta-srで入手できる。
関連論文リスト
- Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - Meta-TTS: Meta-Learning for Few-Shot Speaker Adaptive Text-to-Speech [62.95422526044178]
マルチスピーカTSモデルのトレーニングアルゴリズムとして,MAML(Model Agnostic Meta-Learning)を用いる。
その結果,Meta-TTSは話者適応ベースラインよりも適応ステップが少ない少数のサンプルから高い話者類似性音声を合成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-07T09:53:31Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - GANSpeech: Adversarial Training for High-Fidelity Multi-Speaker Speech
Synthesis [6.632254395574993]
GANSpeechは、非自己回帰型マルチスピーカTSモデルに対向訓練法を採用する高忠実度マルチスピーカTSモデルである。
主観的な聴取試験では、GANSpeechはベースラインのマルチスピーカーであるFastSpeechとFastSpeech2モデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-06-29T08:15:30Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。