論文の概要: Magnitude-aware Probabilistic Speaker Embeddings
- arxiv url: http://arxiv.org/abs/2202.13826v1
- Date: Mon, 28 Feb 2022 14:34:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 21:47:11.258361
- Title: Magnitude-aware Probabilistic Speaker Embeddings
- Title(参考訳): マグニチュード対応確率的話者埋め込み
- Authors: Nikita Kuzmin, Igor Fedorov and Alexey Sholokhov
- Abstract要約: 近年,超球面埋め込みは顔認識や音声認識の主流技術として確立されている。
近年の研究では、ディープニューラルネットワークによって抽出された埋め込みの大きさは、対応する入力の品質を示す可能性があることが示されている。
本稿では,品質評価とアウト・オブ・ディストリビューション検出に関連する埋め込みの規模について検討する。
- 参考スコア(独自算出の注目度): 4.8853594403345495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, hyperspherical embeddings have established themselves as a dominant
technique for face and voice recognition. Specifically, Euclidean space vector
embeddings are learned to encode person-specific information in their direction
while ignoring the magnitude. However, recent studies have shown that the
magnitudes of the embeddings extracted by deep neural networks may indicate the
quality of the corresponding inputs. This paper explores the properties of the
magnitudes of the embeddings related to quality assessment and
out-of-distribution detection. We propose a new probabilistic speaker embedding
extractor using the information encoded in the embedding magnitude and leverage
it in the speaker verification pipeline. We also propose several quality-aware
diarization methods and incorporate the magnitudes in those. Our results
indicate significant improvements over magnitude-agnostic baselines both in
speaker verification and diarization tasks.
- Abstract(参考訳): 近年,超球面埋め込みは顔認識や音声認識の主流技術として確立されている。
具体的には、ユークリッド空間ベクトル埋め込みが学習され、大きさを無視しながら人固有の情報をその方向にエンコードする。
しかし、近年の研究では、ディープニューラルネットワークによって抽出された埋め込みの大きさは、対応する入力の品質を示す可能性があることが示されている。
本稿では,品質評価および分布外検出に関連する埋込量の大きさの特性について検討する。
本稿では,埋め込みの規模で符号化された情報を用いて,話者検証パイプラインに組み込む確率的話者埋め込み抽出器を提案する。
また,品質を意識したダイアリゼーション手法をいくつか提案する。
以上の結果から,話者検証とダイアリゼーションの両作業において,大域的ベースラインよりも顕著な改善が見られた。
関連論文リスト
- WDiscOOD: Out-of-Distribution Detection via Whitened Linear Discriminant
Analysis [21.023001428704085]
本稿では,クラス固有情報とクラス非依存情報に基づく新しい特徴空間OOD検出スコアを提案する。
WDiscOODという手法の有効性を,大規模なImageNet-1kベンチマークで検証した。
論文 参考訳(メタデータ) (2023-03-14T00:13:57Z) - Span Classification with Structured Information for Disfluency Detection
in Spoken Utterances [47.05113261111054]
本稿では,音声音声からテキスト中の不一致を検出する新しいアーキテクチャを提案する。
提案手法は, 広範に使われているイングリッシュスイッチボードを用いて, ディフルエンシ検出の最先端化を実現する。
論文 参考訳(メタデータ) (2022-03-30T03:22:29Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Is Disentanglement enough? On Latent Representations for Controllable
Music Generation [78.8942067357231]
強い生成デコーダが存在しない場合、アンタングル化は必ずしも制御性を意味するものではない。
VAEデコーダに対する潜伏空間の構造は、異なる属性を操作するための生成モデルの能力を高める上で重要な役割を果たす。
論文 参考訳(メタデータ) (2021-08-01T18:37:43Z) - Preliminary study on using vector quantization latent spaces for TTS/VC
systems with consistent performance [55.10864476206503]
本稿では,潜在言語埋め込みをモデル化するための量子化ベクトルの利用について検討する。
トレーニングにおいて、潜伏空間上の異なるポリシーを強制することにより、潜伏言語埋め込みを得ることができる。
実験の結果,ベクトル量子化法で構築した音声クローニングシステムは,知覚的評価の点でわずかに劣化していることがわかった。
論文 参考訳(メタデータ) (2021-06-25T07:51:35Z) - BiDet: An Efficient Binarized Object Detector [96.19708396510894]
本稿では,効率的な物体検出のためのバイナライズニューラルネットワークのBiDetを提案する。
我々のBiDetは、冗長除去による物体検出にバイナリニューラルネットワークの表現能力を完全に活用している。
我々の手法は、最先端のバイナリニューラルネットワークを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-03-09T08:16:16Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。