論文の概要: Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2002.10502v1
- Date: Mon, 24 Feb 2020 19:31:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 04:46:49.615919
- Title: Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのディープニューラルネットワーク音響モデルの分散学習
- Authors: Xiaodong Cui, Wei Zhang, Ulrich Finkler, George Saon, Michael Picheny,
David Kung
- Abstract要約: ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
- 参考スコア(独自算出の注目度): 33.032361181388886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past decade has witnessed great progress in Automatic Speech Recognition
(ASR) due to advances in deep learning. The improvements in performance can be
attributed to both improved models and large-scale training data. Key to
training such models is the employment of efficient distributed learning
techniques. In this article, we provide an overview of distributed training
techniques for deep neural network acoustic models for ASR. Starting with the
fundamentals of data parallel stochastic gradient descent (SGD) and ASR
acoustic modeling, we will investigate various distributed training strategies
and their realizations in high performance computing (HPC) environments with an
emphasis on striking the balance between communication and computation.
Experiments are carried out on a popular public benchmark to study the
convergence, speedup and recognition performance of the investigated
strategies.
- Abstract(参考訳): 過去10年間、ディープラーニングの進歩により、自動音声認識(ASR)に大きな進歩が見られた。
パフォーマンスの改善は、改善されたモデルと大規模なトレーニングデータの両方に起因する。
このようなモデルのトレーニングの鍵は、効率的な分散学習技術の雇用である。
本稿では、ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
本稿では,データ並列確率勾配勾配(SGD)とASR音響モデルの基礎から,通信と計算のバランスを崩すことに重点を置いた,高性能コンピューティング(HPC)環境における分散トレーニング戦略とその実現について検討する。
調査戦略の収束,スピードアップ,認識性能を検討するため,人気のあるベンチマークを用いて実験を行った。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Adv-KD: Adversarial Knowledge Distillation for Faster Diffusion Sampling [2.91204440475204]
拡散確率モデル(DPM)は、深層生成モデルの強力なクラスとして登場した。
それらは、サンプル生成中にシーケンシャルなデノイングステップに依存している。
モデルアーキテクチャに直接位相を分解する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-31T08:19:44Z) - Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。
この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文 参考訳(メタデータ) (2024-05-29T15:44:51Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z) - Towards a Better Theoretical Understanding of Independent Subnetwork Training [56.24689348875711]
独立サブネットワークトレーニング(IST)の理論的考察
ISTは、上記の問題を解決するための、最近提案され、非常に効果的である。
圧縮通信を用いた分散手法など,ISTと代替手法の基本的な違いを同定する。
論文 参考訳(メタデータ) (2023-06-28T18:14:22Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - Asynchronous Decentralized Distributed Training of Acoustic Models [43.34839658423581]
非同期分散並列SGD(ADPSGD)の3つの変種について検討する。
固定およびランダム化された通信パターンを持つADPSGDは、遅い学習者とうまく対応していることを示す。
特に,遅延・バイ・ワン戦略を用いて,2時間以内で音響モデルを訓練することができる。
論文 参考訳(メタデータ) (2021-10-21T15:14:58Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Improving Music Performance Assessment with Contrastive Learning [78.8942067357231]
本研究では,既存のMPAシステムを改善するための潜在的手法として,コントラスト学習について検討する。
畳み込みニューラルネットワークに適用された回帰タスクに適した重み付きコントラスト損失を導入する。
この結果から,MPA回帰タスクにおいて,コントラッシブ・ベースの手法がSoTA性能に適合し,超越できることが示唆された。
論文 参考訳(メタデータ) (2021-08-03T19:24:25Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。