論文の概要: Deep Normalization for Speaker Vectors
- arxiv url: http://arxiv.org/abs/2004.04095v2
- Date: Mon, 2 Nov 2020 02:27:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:32:17.177276
- Title: Deep Normalization for Speaker Vectors
- Title(参考訳): 話者ベクトルの深部正規化
- Authors: Yunqi Cai, Lantian Li, Dong Wang and Andrew Abel
- Abstract要約: ディープスピーカー埋め込みは、話者認識タスクにおける最先端の性能を実証した。
ディープ話者ベクトルは個々の話者に対して非ガウス的であり、異なる話者の分布に対して同質である。
本稿では,新しい識別正規化フロー(DNF)モデルに基づく深層正規化手法を提案する。
- 参考スコア(独自算出の注目度): 13.310988353839237
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep speaker embedding has demonstrated state-of-the-art performance in
speaker recognition tasks. However, one potential issue with this approach is
that the speaker vectors derived from deep embedding models tend to be
non-Gaussian for each individual speaker, and non-homogeneous for distributions
of different speakers. These irregular distributions can seriously impact
speaker recognition performance, especially with the popular PLDA scoring
method, which assumes homogeneous Gaussian distribution. In this paper, we
argue that deep speaker vectors require deep normalization, and propose a deep
normalization approach based on a novel discriminative normalization flow (DNF)
model. We demonstrate the effectiveness of the proposed approach with
experiments using the widely used SITW and CNCeleb corpora. In these
experiments, the DNF-based normalization delivered substantial performance
gains and also showed strong generalization capability in out-of-domain tests.
- Abstract(参考訳): ディープスピーカー埋め込みは、話者認識タスクにおける最先端の性能を示す。
しかし、このアプローチの潜在的な問題は、ディープ埋め込みモデルから導かれる話者ベクトルが個々の話者に対して非ガウス的であり、異なる話者の分布に対して非均一である傾向があることである。
これらの不規則分布は、特に均質なガウス分布を仮定する人気のあるPLDAスコアリング法において、話者認識性能に深刻な影響を及ぼす可能性がある。
本稿では,深層話者ベクトルが深部正規化を必要とすることを論じ,新しい識別正規化フロー(DNF)モデルに基づく深部正規化手法を提案する。
提案手法の有効性を,広く用いられている sitw と cnceleb corpora を用いて実証した。
これらの実験では、DNFをベースとした正規化は大幅な性能向上を実現し、ドメイン外テストでは強力な一般化能力を示した。
関連論文リスト
- GLAD: Towards Better Reconstruction with Global and Local Adaptive Diffusion Models for Unsupervised Anomaly Detection [60.78684630040313]
拡散モデルは、特定のノイズを付加したテスト画像の通常の画像を再構成する傾向がある。
世界的視点から見ると、異なる異常による画像再構成の難しさは不均一である。
本稿では,非教師付き異常検出のためのグローバルかつ局所的な適応拡散モデル(GLADと略す)を提案する。
論文 参考訳(メタデータ) (2024-06-11T17:27:23Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Dior-CVAE: Pre-trained Language Models and Diffusion Priors for
Variational Dialog Generation [70.2283756542824]
Dior-CVAEは階層型条件変分オートエンコーダ(CVAE)である。
拡散モデルを用いて、従来の分布の複雑さを増大させ、PLMが生成した分布との整合性を高める。
2つのオープンドメインダイアログデータセットを対象とした実験により,大規模ダイアログ事前学習を必要とせずに,より多様な応答を生成できることが判明した。
論文 参考訳(メタデータ) (2023-05-24T11:06:52Z) - Self-supervised Speaker Diarization [19.111219197011355]
本研究では、話者ダイアリゼーションのための教師なしディープラーニングモデルを提案する。
話者埋め込みは、同一話者と推定される隣接セグメントのペアを使用して、自己教師付きで訓練されたエンコーダによって表現される。
論文 参考訳(メタデータ) (2022-04-08T16:27:14Z) - End-to-End Speaker Diarization as Post-Processing [64.12519350944572]
クラスタリングに基づくダイアリゼーション手法は、フレームを話者数のクラスタに分割する。
いくつかのエンドツーエンドのダイアリゼーション手法は、問題をマルチラベル分類として扱うことで重なり合う音声を処理できる。
本稿では,クラスタリングによる結果の処理後処理として,2話者のエンドツーエンドダイアリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-12-18T05:31:07Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Deep Speaker Vector Normalization with Maximum Gaussianality Training [13.310988353839237]
ディープスピーカ埋め込みの鍵となる問題は、結果のディープスピーカベクトルが不規則に分散する傾向があることである。
従来の研究では,新しい識別正規化フロー(DNF)モデルに基づく深部正規化手法を提案した。
この顕著な成功にもかかわらず、DNFモデルによって生成される潜伏符号は概して同質でもガウス的でもないことを実証的に見出した。
本稿では,潜在符号のガウス性を直接最大化する最大ガウス性(MG)トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T09:42:06Z) - Multi-speaker Text-to-speech Synthesis Using Deep Gaussian Processes [36.63589873242547]
マルチスピーカ音声合成は,複数の話者の声を単一モデルでモデル化する手法である。
ディープガウス過程(DGP)と潜在変数モデル(DGPLVM)を用いた多話者音声合成のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T02:03:27Z) - DNN Speaker Tracking with Embeddings [0.0]
埋め込み型話者追跡手法を提案する。
我々の設計は、典型的な話者検証PLDAを模倣した畳み込みニューラルネットワークに基づいている。
ベースラインシステムを話者追跡と類似させるため、非ターゲット話者を録音に追加した。
論文 参考訳(メタデータ) (2020-07-13T18:40:14Z) - Target-Speaker Voice Activity Detection: a Novel Approach for
Multi-Speaker Diarization in a Dinner Party Scenario [51.50631198081903]
本稿では,TS-VAD(Target-Speaker Voice Activity Detection)手法を提案する。
TS-VADは各時間フレーム上の各話者の活動を直接予測する。
CHiME-6での実験では、TS-VADが最先端の結果を得ることが示された。
論文 参考訳(メタデータ) (2020-05-14T21:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。