論文の概要: Crossed-Time Delay Neural Network for Speaker Recognition
- arxiv url: http://arxiv.org/abs/2006.00452v3
- Date: Tue, 7 Dec 2021 06:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 12:24:16.946471
- Title: Crossed-Time Delay Neural Network for Speaker Recognition
- Title(参考訳): 話者認識のためのクロス時間遅延ニューラルネットワーク
- Authors: Liang Chen and Yanchun Liang and Xiaohu Shi and You Zhou and Chunguo
Wu
- Abstract要約: 我々は,現在のTDNNの性能を高めるために,新しい構造であるCrossed-Time Delay Neural Network (CTDNN)を導入する。
提案したCTDNNは,話者認証タスクと識別タスクの両方において,元のTDNNよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 5.216353911330589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time Delay Neural Network (TDNN) is a well-performing structure for DNN-based
speaker recognition systems. In this paper we introduce a novel structure
Crossed-Time Delay Neural Network (CTDNN) to enhance the performance of current
TDNN. Inspired by the multi-filters setting of convolution layer from
convolution neural network, we set multiple time delay units each with
different context size at the bottom layer and construct a multilayer parallel
network. The proposed CTDNN gives significant improvements over original TDNN
on both speaker verification and identification tasks. It outperforms in
VoxCeleb1 dataset in verification experiment with a 2.6% absolute Equal Error
Rate improvement. In few shots condition CTDNN reaches 90.4% identification
accuracy, which doubles the identification accuracy of original TDNN. We also
compare the proposed CTDNN with another new variant of TDNN, FTDNN, which shows
that our model has a 36% absolute identification accuracy improvement under few
shots condition and can better handle training of a larger batch in a shorter
training time, which better utilize the calculation resources. The code of the
new model is released at https://github.com/chenllliang/CTDNN
- Abstract(参考訳): Time Delay Neural Network (TDNN) は、DNNベースの話者認識システムのための優れた構造である。
本稿では,現在のTDNNの性能を高めるために,CTDNN(Crossed-Time Delay Neural Network)という新しい構造を導入する。
畳み込みニューラルネットワークからの畳み込み層のマルチフィルタ設定に触発されて,下位層に異なるコンテキストサイズを持つ複数の時間遅延ユニットを設定し,多層並列ネットワークを構築する。
提案したCTDNNは,話者認証タスクと識別タスクの両方において,元のTDNNよりも大幅に改善されている。
検証実験ではVoxCeleb1データセットで2.6%の絶対誤差率の改善が達成されている。
少数のショットではCTDNNの識別精度は90.4%に達し、元のTDNNの識別精度は2倍になる。
また,提案するctdnnをtdnnの新たな派生型であるftdnnと比較し,本モデルではショット数が少ない場合の絶対識別精度が36%向上し,より短いトレーニング時間でより大きなバッチのトレーニングを処理し,計算資源をより活用できることを示した。
新モデルのコードはhttps://github.com/chenllliang/CTDNNで公開されている。
関連論文リスト
- A noise based novel strategy for faster SNN training [0.0]
スパイキングニューラルネットワーク(SNN)は、消費電力の低さと強力なバイオプロファイザビリティによって注目を集めている。
人工知能ニューラルネットワーク(ANN)-SNN変換とスパイクベースのバックプロパゲーション(BP)の2つの主要な手法には、それぞれ長所と短所がある。
本稿では,2つの手法の利点を組み合わせた新しいSNNトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-10T09:59:04Z) - SNN2ANN: A Fast and Memory-Efficient Training Framework for Spiking
Neural Networks [117.56823277328803]
スパイクニューラルネットワークは、低消費電力環境における効率的な計算モデルである。
本稿では,SNNを高速かつメモリ効率で学習するためのSNN-to-ANN(SNN2ANN)フレームワークを提案する。
実験結果から,SNN2ANNをベースとしたモデルがベンチマークデータセットで良好に動作することが示された。
論文 参考訳(メタデータ) (2022-06-19T16:52:56Z) - Training High-Performance Low-Latency Spiking Neural Networks by
Differentiation on Spike Representation [70.75043144299168]
スパイキングニューラルネットワーク(SNN)は、ニューロモルフィックハードウェア上に実装された場合、有望なエネルギー効率のAIモデルである。
非分化性のため、SNNを効率的に訓練することは困難である。
本稿では,ハイパフォーマンスを実現するスパイク表現法(DSR)の差分法を提案する。
論文 参考訳(メタデータ) (2022-05-01T12:44:49Z) - Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - Can Deep Neural Networks be Converted to Ultra Low-Latency Spiking
Neural Networks? [3.2108350580418166]
スパイクニューラルネットワーク(SNN)は、時間とともに分散されたバイナリスパイクを介して動作する。
SNNのためのSOTAトレーニング戦略は、非スパイキングディープニューラルネットワーク(DNN)からの変換を伴う
そこで本研究では,DNNと変換SNNの誤差を最小限に抑えながら,これらの分布を正確にキャプチャする新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-22T18:47:45Z) - SpeechNAS: Towards Better Trade-off between Latency and Accuracy for
Large-Scale Speaker Verification [26.028985033942735]
本研究では,ニューラルアーキテクチャサーチ(NAS)を用いたTDNNに基づく探索空間から最適アーキテクチャを同定する。
我々の導出した最良のニューラルネットワークはVoxCeleb1の標準テストセットで1.02%の誤差率(EER)を達成する。
論文 参考訳(メタデータ) (2021-09-18T05:31:27Z) - Strengthening the Training of Convolutional Neural Networks By Using
Walsh Matrix [0.0]
分類性能を向上させるため,DNNのトレーニングと構造を変更した。
畳み込みニューラルネットワーク(CNN)の最後の層に続く最小距離ネットワーク(MDN)が分類器として使用される。
異なる領域では、ノード数が少ないDivFEを使用することでより高い分類性能が得られたことが観察されている。
論文 参考訳(メタデータ) (2021-03-31T18:06:11Z) - Deep Time Delay Neural Network for Speech Enhancement with Full Data
Learning [60.20150317299749]
本稿では,全データ学習による音声強調のためのディープタイム遅延ニューラルネットワーク(TDNN)を提案する。
トレーニングデータを完全に活用するために,音声強調のための完全なデータ学習手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T06:32:37Z) - Kernel Based Progressive Distillation for Adder Neural Networks [71.731127378807]
追加のみを含むAdder Neural Networks(ANN)は、エネルギー消費の少ないディープニューラルネットワークを新たに開発する方法を提供する。
すべての畳み込みフィルタを加算フィルタで置き換える場合、精度の低下がある。
本稿では,トレーニング可能なパラメータを増大させることなく,ANNの性能を向上するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-09-28T03:29:19Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。