論文の概要: Efficient Training of Neural Transducer for Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.10586v1
- Date: Fri, 22 Apr 2022 09:16:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 14:20:51.026838
- Title: Efficient Training of Neural Transducer for Speech Recognition
- Title(参考訳): 音声認識のためのニューラルトランスデューサの学習
- Authors: Wei Zhou, Wilfried Michel, Ralf Schl\"uter, Hermann Ney
- Abstract要約: スクラッチから高性能なニューラルトランスデューサモデルを構築するために,効率的な3段階プログレッシブトレーニングパイプラインを提案する。
提案されたパイプラインは,最先端のパフォーマンスに近づくトランスデューサモデルを,たった2~3週間で1つのGPUでトレーニングすることができる。
- 参考スコア(独自算出の注目度): 44.99337868233026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As one of the most popular sequence-to-sequence modeling approaches for
speech recognition, the RNN-Transducer has achieved evolving performance with
more and more sophisticated neural network models of growing size and
increasing training epochs. While strong computation resources seem to be the
prerequisite of training superior models, we try to overcome it by carefully
designing a more efficient training pipeline. In this work, we propose an
efficient 3-stage progressive training pipeline to build highly-performing
neural transducer models from scratch with very limited computation resources
in a reasonable short time period. The effectiveness of each stage is
experimentally verified on both Librispeech and Switchboard corpora. The
proposed pipeline is able to train transducer models approaching
state-of-the-art performance with a single GPU in just 2-3 weeks. Our best
conformer transducer achieves 4.1% WER on Librispeech test-other with only 35
epochs of training.
- Abstract(参考訳): 音声認識におけるシーケンシャル・ツー・シーケンス・モデリングのアプローチとして、RNN-Transducerは、サイズを拡大し、トレーニングエポックを増大させる、より洗練されたニューラルネットワークモデルで、進化するパフォーマンスを達成した。
強力な計算リソースは優れたモデルをトレーニングする上で必要不可欠であるように見えるが、より効率的なトレーニングパイプラインを慎重に設計することでそれを克服しようとしている。
本研究では,比較的短時間で計算資源を制限したスクラッチから高性能なニューラルトランスデューサモデルを構築するための,効率的な3段階プログレッシブトレーニングパイプラインを提案する。
LibrispeechとSwitchboardのコーパスで各ステージの有効性を実験的に検証した。
提案されたパイプラインは,最先端のパフォーマンスに近づくトランスデューサモデルを,たった2~3週間でトレーニングすることができる。
ベストコンバータトランスデューサは,35エポックのトレーニングで,Librispeechテストで4.1%のWERを達成した。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think [72.48325960659822]
生成のための大規模拡散モデルの訓練における主要なボトルネックは、これらの表現を効果的に学習することにある。
本稿では,RePresentation Alignment (REPA) と呼ばれる単純な正規化を導入し,ノイズの多い入力隠れ状態の投影を,外部の事前学習された視覚エンコーダから得られるクリーンな画像表現と整合させる手法を提案する。
我々の単純な戦略は、一般的な拡散やDiTsやSiTsといったフローベースのトランスフォーマーに適用した場合、トレーニング効率と生成品質の両方に大きな改善をもたらす。
論文 参考訳(メタデータ) (2024-10-09T14:34:53Z) - Always-Sparse Training by Growing Connections with Guided Stochastic
Exploration [46.4179239171213]
本研究では,より大規模かつスペーサーなモデルへのスケーリングに優れる,効率的な常時スパーストレーニングアルゴリズムを提案する。
我々は,VGGモデルとVTモデルを用いて,CIFAR-10/100 と ImageNet の手法を評価し,様々なスペーサー化手法と比較した。
論文 参考訳(メタデータ) (2024-01-12T21:32:04Z) - No Train No Gain: Revisiting Efficient Training Algorithms For
Transformer-based Language Models [31.080446886440757]
本稿では、動的アーキテクチャ(レイヤの積み重ね、ドロップ)、バッチ選択(選択的バックプロップ、ROH損失)、効率的なレイヤ(Lion, Sophia)の3つのカテゴリを再検討する。
トレーニング,検証,ダウンストリームのゲインが,完全に遅延した学習率のベースラインに比べて消失していることが分かりました。
我々は、全ての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることで、任意の計算でマシンを実行できる評価プロトコルを定義した。
論文 参考訳(メタデータ) (2023-07-12T20:10:14Z) - Continual learning autoencoder training for a particle-in-cell
simulation via streaming [52.77024349608834]
今後のエクサスケール時代は 次世代の物理シミュレーションを 高解像度で提供します
これらのシミュレーションは高解像度であり、ディスク上に大量のシミュレーションデータを格納することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。
この研究は、ディスク上のデータなしで、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。
論文 参考訳(メタデータ) (2022-11-09T09:55:14Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - EarlyBERT: Efficient BERT Training via Early-bird Lottery Tickets [106.79387235014379]
EarlyBERTは、大規模言語モデルの事前学習と微調整の両方に適用できる一般的な計算効率のトレーニングアルゴリズムである。
BERTトレーニングの初期段階において、構造化された入賞チケットを最初に識別し、効率的なトレーニングに使用します。
EarlyBERTは、トレーニング時間を3545%短縮した標準BERTと同等のパフォーマンスを簡単に達成します。
論文 参考訳(メタデータ) (2020-12-31T20:38:20Z) - FracTrain: Fractionally Squeezing Bit Savings Both Temporally and
Spatially for Efficient DNN Training [81.85361544720885]
アクティベーション、ウェイト、グラデーションの精度を徐々に高めるプログレッシブ分数量子化を統合したFracTrainを提案します。
FracTrainはDNNトレーニングの計算コストとハードウェア量子化エネルギー/レイテンシを削減し、同等以上の精度(-0.12%+1.87%)を達成する。
論文 参考訳(メタデータ) (2020-12-24T05:24:10Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z) - A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。
提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文 参考訳(メタデータ) (2020-09-04T12:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。