論文の概要: Neural i-vectors
- arxiv url: http://arxiv.org/abs/2004.01559v2
- Date: Sat, 18 Apr 2020 14:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 05:12:49.359311
- Title: Neural i-vectors
- Title(参考訳): ニューラルiベクトル
- Authors: Ville Vestman, Kong Aik Lee, Tomi H. Kinnunen
- Abstract要約: 深部埋込抽出機とi-vector抽出機を連続的に使用することを検討した。
iベクトル抽出器にディープ埋め込み抽出器をバンドルするために,ガウス混合モデル(GMM)にインスパイアされたアグリゲーション層を埋め込み抽出器ネットワークに導入する。
提案したニューラルネットワークi-vectors on the Speakers in the Wild (SITW) と Speaker Recognition Evaluation (SRE) 2018 と 2019 のデータセットを比較した。
- 参考スコア(独自算出の注目度): 21.13825969777844
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep speaker embeddings have been demonstrated to outperform their generative
counterparts, i-vectors, in recent speaker verification evaluations. To combine
the benefits of high performance and generative interpretation, we investigate
the use of deep embedding extractor and i-vector extractor in succession. To
bundle the deep embedding extractor with an i-vector extractor, we adopt
aggregation layers inspired by the Gaussian mixture model (GMM) to the
embedding extractor networks. The inclusion of GMM-like layer allows the
discriminatively trained network to be used as a provider of sufficient
statistics for the i-vector extractor to extract what we call neural i-vectors.
We compare the deep embeddings to the proposed neural i-vectors on the Speakers
in the Wild (SITW) and the Speaker Recognition Evaluation (SRE) 2018 and 2019
datasets. On the core-core condition of SITW, our deep embeddings obtain
performance comparative to the state-of-the-art. The neural i-vectors obtain
about 50% worse performance than the deep embeddings, but on the other hand
outperform the previous i-vector approaches reported in the literature by a
clear margin.
- Abstract(参考訳): 話者の奥行き埋め込みは、近年の話者照合評価において、生成型のi-vectorsよりも優れていることが示されている。
高い性能と生成的解釈の利点を併せ持つために, 深い埋め込み抽出器とi-vector抽出器の使用について検討する。
深い埋め込み抽出器をi-vector抽出器にバンドルするために,ガウス混合モデル(gmm)に触発されたアグリゲーション層を埋め込み抽出器ネットワークに適用する。
GMMライクな層を組み込むことで、差別的に訓練されたネットワークを、ニューラルiベクターと呼ばれるものを抽出するiベクター抽出器の十分な統計提供者として使用できる。
提案したニューラルネットワークi-vectors on the Speakers in the Wild (SITW) と Speaker Recognition Evaluation (SRE) 2018 と 2019 のデータセットを比較した。
SITWのコアコア条件では, 深層埋め込みは最先端技術と比較して性能が向上する。
ニューラルiベクターは、ディープ埋め込みよりも約50%性能が劣るが、一方、文献で報告されたiベクターのアプローチは明らかなマージンで上回っている。
関連論文リスト
- VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Learning Cluster Patterns for Abstractive Summarization [0.0]
そこで我々は,デコーダがより有意な文脈ベクトルに参加できるような,有意なコンテキストベクトルと非有意なコンテキストベクトルの2つのクラスタについて考察する。
実験結果から,提案モデルは,これらの異なるクラスタパターンを学習することにより,既存のBARTモデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2022-02-22T15:15:24Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - A SAR speckle filter based on Residual Convolutional Neural Networks [68.8204255655161]
本研究では,Convolutional Neural Networks(CNN)に基づく深層学習(DL)アルゴリズムを用いて,Sentinel-1データからスペックルノイズをフィルタリングする新しい手法を提案する。
得られた結果は、技術の現状と比較すると、ピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)の点で明確な改善を示しています。
論文 参考訳(メタデータ) (2021-04-19T14:43:07Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Neural Contextual Bandits with Deep Representation and Shallow
Exploration [105.8099566651448]
本稿では,深部ReLUニューラルネットワークの最後の隠蔽層を用いて,原特徴ベクトルを変換する新しい学習アルゴリズムを提案する。
既存のニューラルネットワークと比較して、ディープニューラルネットワークの最後の層でのみ探索する必要があるため、我々のアプローチは計算的にはるかに効率的です。
論文 参考訳(メタデータ) (2020-12-03T09:17:55Z) - Combination of Deep Speaker Embeddings for Diarisation [9.053645441056256]
本稿では、異なるNN成分を持つシステムから派生した複数の相補的なd-ベクターの組み合わせにより、c-ベクター法を提案する。
本稿では,ニューラルネットワークを用いた単一パス話者ダイアリゼーションパイプラインを提案する。
挑戦的なAMIとNIST RT05データセットについて実験と詳細な分析を行った。
論文 参考訳(メタデータ) (2020-10-22T20:16:36Z) - Compact Speaker Embedding: lrx-vector [23.297692312524546]
本稿では,xベクトル埋め込みネットワークの低ランク化版であるlrx-vectorシステムについて述べる。
このトポロジの主な目的は、話者認識システムのメモリ要求をさらに削減することである。
論文 参考訳(メタデータ) (2020-08-11T21:32:16Z) - Probabilistic embeddings for speaker diarization [13.276960253126656]
非常に短い音声区間から抽出された話者埋め込み(xベクトル)は、近年、話者ダイアリゼーションにおける競合性能を示すことが示されている。
我々は,このレシピを,対角線精度行列であるxベクトルと並行して,各音声区間から抽出することによって一般化する。
これらの精度は、高品質な音声セグメントから抽出された場合、埋め込みの値が何であったかの不確かさを定量化する。
論文 参考訳(メタデータ) (2020-04-06T14:51:01Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。