論文の概要: Compact Speaker Embedding: lrx-vector
- arxiv url: http://arxiv.org/abs/2008.05011v1
- Date: Tue, 11 Aug 2020 21:32:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 10:53:41.552073
- Title: Compact Speaker Embedding: lrx-vector
- Title(参考訳): 小型スピーカー埋め込み:lrxベクトル
- Authors: Munir Georges, Jonathan Huang, Tobias Bocklet
- Abstract要約: 本稿では,xベクトル埋め込みネットワークの低ランク化版であるlrx-vectorシステムについて述べる。
このトポロジの主な目的は、話者認識システムのメモリ要求をさらに削減することである。
- 参考スコア(独自算出の注目度): 23.297692312524546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNN) have recently been widely used in speaker
recognition systems, achieving state-of-the-art performance on various
benchmarks. The x-vector architecture is especially popular in this research
community, due to its excellent performance and manageable computational
complexity. In this paper, we present the lrx-vector system, which is the
low-rank factorized version of the x-vector embedding network. The primary
objective of this topology is to further reduce the memory requirement of the
speaker recognition system. We discuss the deployment of knowledge distillation
for training the lrx-vector system and compare against low-rank factorization
with SVD. On the VOiCES 2019 far-field corpus we were able to reduce the
weights by 28% compared to the full-rank x-vector system while keeping the
recognition rate constant (1.83% EER).
- Abstract(参考訳): 近年、ディープニューラルネットワーク(DNN)は話者認識システムで広く使われ、様々なベンチマークで最先端のパフォーマンスを実現している。
x-vectorアーキテクチャは、優れた性能と管理可能な計算複雑性のために、この研究コミュニティで特に人気がある。
本稿では,xベクトル埋め込みネットワークの低ランク化バージョンであるlrx-vectorシステムについて述べる。
このトポロジの主な目的は、話者認識システムのメモリ要求をさらに削減することである。
我々は,lrxベクターシステムの訓練のための知識蒸留の展開について論じ,低ランク因子化とSVDとの比較を行った。
VOiCES 2019 far-field corpusでは、認識率を一定(1.83% EER)に保ちながら、フルランクのXベクターシステムと比較して重量を28%減らすことができた。
関連論文リスト
- Improved Out-of-Scope Intent Classification with Dual Encoding and Threshold-based Re-Classification [6.975902383951604]
現在の手法は、予測不可能なアウトリーチ分布で困難に直面している。
本稿では,これらの課題に対処するため,Dual for Threshold-Based Re-Classification (DETER)を提案する。
我々のモデルは以前のベンチマークより優れており、未知のインテントに対するF1スコアの13%と5%に向上しています。
論文 参考訳(メタデータ) (2024-05-30T11:46:42Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - MS-RANAS: Multi-Scale Resource-Aware Neural Architecture Search [94.80212602202518]
我々は,MS-RANAS(Multi-Scale Resource-Aware Neural Architecture Search)を提案する。
我々は,検索コストの削減を図るために,ワンショットのアーキテクチャ探索手法を採用した。
我々は精度-速度トレードオフの観点から最先端の結果を得る。
論文 参考訳(メタデータ) (2020-09-29T11:56:01Z) - Self-attention encoding and pooling for speaker recognition [16.96341561111918]
本研究では,非固定長音声音声の識別話者埋め込みを実現するために,タンデム自己認識・プーリング(SAEP)機構を提案する。
SAEPは、テキストに依存しない話者検証に使用される話者埋め込みに、短時間の話者スペクトル特徴を符号化する。
このアプローチをVoxCeleb1と2のデータセットで評価した。
論文 参考訳(メタデータ) (2020-08-03T09:31:27Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - A Deep Neural Network for Audio Classification with a Classifier
Attention Mechanism [2.3204178451683264]
我々は、Audio-based Convolutional Neural Network (CAB-CNN)と呼ばれる新しいアテンションベースニューラルネットワークアーキテクチャを導入する。
このアルゴリズムは、単純な分類器のリストと、セレクタとしてアテンションメカニズムからなる、新しく設計されたアーキテクチャを使用する。
我々のアルゴリズムは最先端のアルゴリズムと比較して、選択したテストスコアに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2020-06-14T21:29:44Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Neural i-vectors [21.13825969777844]
深部埋込抽出機とi-vector抽出機を連続的に使用することを検討した。
iベクトル抽出器にディープ埋め込み抽出器をバンドルするために,ガウス混合モデル(GMM)にインスパイアされたアグリゲーション層を埋め込み抽出器ネットワークに導入する。
提案したニューラルネットワークi-vectors on the Speakers in the Wild (SITW) と Speaker Recognition Evaluation (SRE) 2018 と 2019 のデータセットを比較した。
論文 参考訳(メタデータ) (2020-04-03T13:29:31Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。