論文の概要: Memory-Efficient Training of RNN-Transducer with Sampled Softmax
- arxiv url: http://arxiv.org/abs/2203.16868v1
- Date: Thu, 31 Mar 2022 07:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:41:27.285530
- Title: Memory-Efficient Training of RNN-Transducer with Sampled Softmax
- Title(参考訳): サンプルソフトマックスを用いたrnnトランスデューサのメモリ効率トレーニング
- Authors: Jaesong Lee, Lukas Lee, Shinji Watanabe
- Abstract要約: 本稿では,RNN-Transducerにサンプルソフトマックスを適用することを提案する。
We present experimental results on LibriSpeech, AISHELL-1, and CSJ-APS。
- 参考スコア(独自算出の注目度): 30.55020578002442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RNN-Transducer has been one of promising architectures for end-to-end
automatic speech recognition. Although RNN-Transducer has many advantages
including its strong accuracy and streaming-friendly property, its high memory
consumption during training has been a critical problem for development. In
this work, we propose to apply sampled softmax to RNN-Transducer, which
requires only a small subset of vocabulary during training thus saves its
memory consumption. We further extend sampled softmax to optimize memory
consumption for a minibatch, and employ distributions of auxiliary CTC losses
for sampling vocabulary to improve model accuracy. We present experimental
results on LibriSpeech, AISHELL-1, and CSJ-APS, where sampled softmax greatly
reduces memory consumption and still maintains the accuracy of the baseline
model.
- Abstract(参考訳): RNN-Transducerはエンドツーエンドの自動音声認識のための有望なアーキテクチャの1つだ。
RNN-Transducerには、高い精度とストリーミングフレンドリーな特性を含む多くの利点があるが、トレーニング中のメモリ消費は、開発にとって重要な問題である。
本稿では,学習中に語彙のごく一部しか必要とせず,メモリ消費を節約できるrnn-transducerにサンプルソフトマックスを適用することを提案する。
さらに、サンプルソフトマックスを拡張して、ミニバッチのメモリ消費を最適化し、サンプル語彙の補助的なCTC損失分布を用いてモデル精度を向上させる。
本稿では,librispeech,aishell-1,csj-apsにおいて,サンプルソフトマックスがメモリ消費を大幅に削減し,ベースラインモデルの精度を維持する実験結果を示す。
関連論文リスト
- Efficient NeRF Optimization -- Not All Samples Remain Equally Hard [9.404889815088161]
ニューラルレイディアンスフィールド(NeRF)の効率的なトレーニングのためのオンラインハードサンプルマイニングの応用を提案する。
NeRFモデルは、多くの3D再構成およびレンダリングタスクに対して最先端の品質を生み出すが、かなりの計算資源を必要とする。
論文 参考訳(メタデータ) (2024-08-06T13:49:01Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - Neural Transducer Training: Reduced Memory Consumption with Sample-wise
Computation [5.355990925686149]
本稿では,トランスデューサの損失と勾配をサンプル毎に計算するメモリ効率のトレーニング手法を提案する。
提案手法は,メモリ使用量を大幅に削減し,デフォルトのバッチ処理に比べて競合速度で動作可能であることを示す。
その結果,1024のバッチサイズと40秒のオーディオ長のトランスデューサ損失と勾配を,わずか6GBのメモリで計算することができた。
論文 参考訳(メタデータ) (2022-11-29T14:57:23Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - Not Far Away, Not So Close: Sample Efficient Nearest Neighbour Data
Augmentation via MiniMax [7.680863481076596]
MiniMax-kNNは、効率的なデータ拡張戦略のサンプルである。
我々は、知識蒸留に基づく半教師付きアプローチを利用して、拡張データに基づいてモデルを訓練する。
論文 参考訳(メタデータ) (2021-05-28T06:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。