論文の概要: Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks
- arxiv url: http://arxiv.org/abs/2007.08818v4
- Date: Sun, 7 Feb 2021 14:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 13:20:27.541176
- Title: Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks
- Title(参考訳): LF-MMI学習時間遅延ニューラルネットワークのニューラルネットワーク探索
- Authors: Shoukang Hu, Xurong Xie, Shansong Liu, Mingyu Cui, Mengzhe Geng,
Xunying Liu, Helen Meng
- Abstract要約: TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
- 参考スコア(独自算出の注目度): 61.76338096980383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) based automatic speech recognition (ASR) systems
are often designed using expert knowledge and empirical evaluation. In this
paper, a range of neural architecture search (NAS) techniques are used to
automatically learn two types of hyper-parameters of state-of-the-art factored
time delay neural networks (TDNNs): i) the left and right splicing context
offsets; and ii) the dimensionality of the bottleneck linear projection at each
hidden layer. These include the DARTS method integrating architecture selection
with lattice-free MMI (LF-MMI) TDNN training; Gumbel-Softmax and pipelined
DARTS reducing the confusion over candidate architectures and improving the
generalization of architecture selection; and Penalized DARTS incorporating
resource constraints to adjust the trade-off between performance and system
complexity. Parameter sharing among candidate architectures allows efficient
search over up to $7^{28}$ different TDNN systems. Experiments conducted on the
300-hour Switchboard corpus suggest the auto-configured systems consistently
outperform the baseline LF-MMI TDNN systems using manual network design or
random architecture search after LHUC speaker adaptation and RNNLM rescoring.
Absolute word error rate (WER) reductions up to 1.0\% and relative model size
reduction of 28\% were obtained. Consistent performance improvements were also
obtained on a UASpeech disordered speech recognition task using the proposed
NAS approaches.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)に基づく自動音声認識(ASR)システムは、専門家の知識と経験的評価を用いて設計されることが多い。
本稿では,TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために,幅広いニューラルネットワーク探索手法を用いる。
一 左右のスプライシングコンテキストオフセット
二 各隠蔽層におけるボトルネック線形射影の寸法
例えば、アーキテクチャ選択を格子フリーなmmi(lf-mmi)tdnnトレーニングと統合するdartsメソッド、候補アーキテクチャに対する混乱を低減し、アーキテクチャ選択の一般化を改善するgumbel-softmaxとpipelined darts、パフォーマンスとシステムの複雑さの間のトレードオフを調整するためのリソース制約を組み込んだペナルティ付きdartsなどがある。
候補アーキテクチャ間のパラメータ共有により、TDNNシステムを最大7〜28ドルまで効率的に検索できる。
300時間のSwitchboardコーパスで行った実験から、自動構成システムはLHUC話者適応とRNNLM再構成の後、手動のネットワーク設計やランダムアーキテクチャ探索を用いて、ベースラインLF-MMI TDNNシステムより一貫して優れていたことが示唆された。
絶対単語誤り率 (WER) は 1.0 % まで低下し, 相対モデルサイズは 28 % まで低下した。
提案するnasアプローチを用いたuaspeech disordered speech recognitionタスクでも一貫した性能改善が得られた。
関連論文リスト
- Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - An optimised deep spiking neural network architecture without gradients [7.183775638408429]
本稿では、局所シナプスおよびしきい値適応ルールを用いたエンドツーエンドのトレーニング可能なモジュラーイベント駆動ニューラルアーキテクチャを提案する。
このアーキテクチャは、既存のスパイキングニューラルネットワーク(SNN)アーキテクチャの高度に抽象化されたモデルを表している。
論文 参考訳(メタデータ) (2021-09-27T05:59:12Z) - A novel Deep Neural Network architecture for non-linear system
identification [78.69776924618505]
非線形システム識別のための新しいDeep Neural Network (DNN)アーキテクチャを提案する。
メモリシステムにインスパイアされたインダクティブバイアス(アーキテクチャ)と正規化(損失関数)を導入する。
このアーキテクチャは、利用可能なデータのみに基づいて、自動的な複雑性の選択を可能にする。
論文 参考訳(メタデータ) (2021-06-06T10:06:07Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - EfficientTDNN: Efficient Architecture Search for Speaker Recognition in
the Wild [29.59228560095565]
認識精度を維持しつつ、推論効率を向上させるために、ニューラルネットワーク探索に基づく効率的な時間遅延ニューラルネットワーク(EfficientTDNN)を提案する。
VoxCelebデータセットの実験では、EfficientTDNNは約1013$sの巨大な検索スペースを提供し、1.66%のEERと0.156のDCF$_0.01$と565MMACを達成している。
論文 参考訳(メタデータ) (2021-03-25T03:28:07Z) - Differentiable Neural Architecture Learning for Efficient Neural Network
Design [31.23038136038325]
スケールド・シグモイド関数に基づく新しいemphアーキテクチャのパラメータ化を提案する。
そこで本論文では,候補ニューラルネットワークを評価することなく,ニューラルネットワークを最適化するための汎用的エファイブルニューラルネットワーク学習(DNAL)手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T02:03:08Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Progressive Tandem Learning for Pattern Recognition with Deep Spiking
Neural Networks [80.15411508088522]
スパイキングニューラルネットワーク(SNN)は、低レイテンシと高い計算効率のために、従来の人工知能ニューラルネットワーク(ANN)よりも優位性を示している。
高速かつ効率的なパターン認識のための新しいANN-to-SNN変換およびレイヤワイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-02T15:38:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。