論文の概要: Memory-Efficient Training of RNN-Transducer with Sampled Softmax
- arxiv url: http://arxiv.org/abs/2203.16868v1
- Date: Thu, 31 Mar 2022 07:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:41:27.285530
- Title: Memory-Efficient Training of RNN-Transducer with Sampled Softmax
- Title(参考訳): サンプルソフトマックスを用いたrnnトランスデューサのメモリ効率トレーニング
- Authors: Jaesong Lee, Lukas Lee, Shinji Watanabe
- Abstract要約: 本稿では,RNN-Transducerにサンプルソフトマックスを適用することを提案する。
We present experimental results on LibriSpeech, AISHELL-1, and CSJ-APS。
- 参考スコア(独自算出の注目度): 30.55020578002442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RNN-Transducer has been one of promising architectures for end-to-end
automatic speech recognition. Although RNN-Transducer has many advantages
including its strong accuracy and streaming-friendly property, its high memory
consumption during training has been a critical problem for development. In
this work, we propose to apply sampled softmax to RNN-Transducer, which
requires only a small subset of vocabulary during training thus saves its
memory consumption. We further extend sampled softmax to optimize memory
consumption for a minibatch, and employ distributions of auxiliary CTC losses
for sampling vocabulary to improve model accuracy. We present experimental
results on LibriSpeech, AISHELL-1, and CSJ-APS, where sampled softmax greatly
reduces memory consumption and still maintains the accuracy of the baseline
model.
- Abstract(参考訳): RNN-Transducerはエンドツーエンドの自動音声認識のための有望なアーキテクチャの1つだ。
RNN-Transducerには、高い精度とストリーミングフレンドリーな特性を含む多くの利点があるが、トレーニング中のメモリ消費は、開発にとって重要な問題である。
本稿では,学習中に語彙のごく一部しか必要とせず,メモリ消費を節約できるrnn-transducerにサンプルソフトマックスを適用することを提案する。
さらに、サンプルソフトマックスを拡張して、ミニバッチのメモリ消費を最適化し、サンプル語彙の補助的なCTC損失分布を用いてモデル精度を向上させる。
本稿では,librispeech,aishell-1,csj-apsにおいて,サンプルソフトマックスがメモリ消費を大幅に削減し,ベースラインモデルの精度を維持する実験結果を示す。
関連論文リスト
- AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of
Language Model [92.55145016562867]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Neural Transducer Training: Reduced Memory Consumption with Sample-wise
Computation [5.355990925686149]
本稿では,トランスデューサの損失と勾配をサンプル毎に計算するメモリ効率のトレーニング手法を提案する。
提案手法は,メモリ使用量を大幅に削減し,デフォルトのバッチ処理に比べて競合速度で動作可能であることを示す。
その結果,1024のバッチサイズと40秒のオーディオ長のトランスデューサ損失と勾配を,わずか6GBのメモリで計算することができた。
論文 参考訳(メタデータ) (2022-11-29T14:57:23Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - SreaMRAK a Streaming Multi-Resolution Adaptive Kernel Algorithm [60.61943386819384]
既存のKRRの実装では、すべてのデータがメインメモリに格納される必要がある。
KRRのストリーミング版であるStreaMRAKを提案する。
本稿では,2つの合成問題と2重振り子の軌道予測について紹介する。
論文 参考訳(メタデータ) (2021-08-23T21:03:09Z) - Not Far Away, Not So Close: Sample Efficient Nearest Neighbour Data
Augmentation via MiniMax [7.680863481076596]
MiniMax-kNNは、効率的なデータ拡張戦略のサンプルである。
我々は、知識蒸留に基づく半教師付きアプローチを利用して、拡張データに基づいてモデルを訓練する。
論文 参考訳(メタデータ) (2021-05-28T06:32:32Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。