論文の概要: Post-Training Embedding Alignment for Decoupling Enrollment and Runtime
Speaker Recognition Models
- arxiv url: http://arxiv.org/abs/2401.12440v1
- Date: Tue, 23 Jan 2024 02:19:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 17:06:01.850886
- Title: Post-Training Embedding Alignment for Decoupling Enrollment and Runtime
Speaker Recognition Models
- Title(参考訳): 学習後埋め込みアライメントを用いたデカップリング学習と実行時話者認識モデル
- Authors: Chenyang Gao, Brecht Desplanques, Chelsea J.-T. Ju, Aman Chadha,
Andreas Stolcke
- Abstract要約: 本稿では、2つの独立モデルから共有話者埋め込み空間への埋め込みをマッピングする軽量ニューラルネットワークを提案する。
提案手法は,多数の話者同一性を持つ大規模データセットに対して,比較的な損失を伴って訓練されたモデルに対して,共有話者ロジット空間におけるコサインスコアよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 18.50444234955465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated speaker identification (SID) is a crucial step for the
personalization of a wide range of speech-enabled services. Typical SID systems
use a symmetric enrollment-verification framework with a single model to derive
embeddings both offline for voice profiles extracted from enrollment
utterances, and online from runtime utterances. Due to the distinct
circumstances of enrollment and runtime, such as different computation and
latency constraints, several applications would benefit from an asymmetric
enrollment-verification framework that uses different models for enrollment and
runtime embedding generation. To support this asymmetric SID where each of the
two models can be updated independently, we propose using a lightweight neural
network to map the embeddings from the two independent models to a shared
speaker embedding space. Our results show that this approach significantly
outperforms cosine scoring in a shared speaker logit space for models that were
trained with a contrastive loss on large datasets with many speaker identities.
This proposed Neural Embedding Speaker Space Alignment (NESSA) combined with an
asymmetric update of only one of the models delivers at least 60% of the
performance gain achieved by updating both models in the standard symmetric SID
approach.
- Abstract(参考訳): 自動話者識別(SID)は、幅広い音声対応サービスのパーソナライズのための重要なステップである。
典型的なSIDシステムは、単一のモデルを持つ対称的登録検証フレームワークを使用して、登録発話から抽出された音声プロファイルのオフラインと実行時発話からオンライン両方の埋め込みを導出する。
異なる計算やレイテンシの制約など、エンローメントとランタイムの異なる状況のため、いくつかのアプリケーションは、エンローメントとランタイム組み込み生成に異なるモデルを使用する非対称エンローメント検証フレームワークの恩恵を受けるだろう。
2つのモデルのそれぞれを独立して更新できるこの非対称sidをサポートするため、軽量ニューラルネットワークを用いて、2つの独立したモデルから共有話者埋め込み空間への埋め込みをマッピングする。
その結果,このアプローチは,多数の話者同一性を持つ大規模データセットのコントラスト損失を訓練したモデルにおいて,共有話者ロジット空間におけるコサインスコアを有意に上回っていることがわかった。
この提案したNeural Embedding Speaker Space Alignment (NESSA)は、標準対称SIDアプローチで両方のモデルを更新することで達成された性能の少なくとも60%を、モデルの1つの非対称な更新と組み合わせたものである。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Unified Modeling of Multi-Talker Overlapped Speech Recognition and
Diarization with a Sidecar Separator [42.8787280791491]
複数話者の重複した音声は,音声認識とダイアリゼーションにおいて重要な課題となる。
本稿では,単一話者の自動音声認識システムをマルチ話者に変換するコスト効率のよい手法を提案する。
ダイアリゼーションブランチをSidecarに組み込むことで、ASRとダイアリゼーションの両方を統一的にモデル化し、768のパラメータのみを無視できるオーバーヘッドでダイアリゼーションを行う。
論文 参考訳(メタデータ) (2023-05-25T17:18:37Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings [53.11450530896623]
本稿では,「誰が何を話したか」を認識可能な,ストリーミング話者対応自動音声認識(SA-ASR)モデルを提案する。
本モデルは,最近提案されたマルチトーカー音声をストリーミング形式で書き起こすためのトークンレベルシリアライズアウトプットトレーニング(t-SOT)に基づいている。
提案モデルでは,従来のストリーミングモデルよりも精度が大幅に向上し,最先端のオフラインSA-ASRモデルに匹敵する,あるいは時として優れた結果が得られる。
論文 参考訳(メタデータ) (2022-03-30T21:42:00Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Unified Autoregressive Modeling for Joint End-to-End Multi-Talker
Overlapped Speech Recognition and Speaker Attribute Estimation [26.911867847630187]
本稿では,ASR(Automatic Speech Recognition)システムを用いた単一チャンネルマルチストーカーのモデリング手法を提案する。
ASRと話者属性推定を重畳した連立エンドツーエンドマルチストーカーに対する統合自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2021-07-04T05:47:18Z) - End-to-End Diarization for Variable Number of Speakers with Local-Global
Networks and Discriminative Speaker Embeddings [66.50782702086575]
本論文では,単一チャンネルの音声記録から会議ダイアリゼーションを行う,エンドツーエンドのディープネットワークモデルを提案する。
提案システムは,可変数の置換不変なクロスエントロピーに基づく損失関数を用いて,未知数の話者とのミーティングを処理するように設計されている。
論文 参考訳(メタデータ) (2021-05-05T14:55:29Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。