論文の概要: Pruned RNN-T for fast, memory-efficient ASR training
- arxiv url: http://arxiv.org/abs/2206.13236v1
- Date: Thu, 23 Jun 2022 12:18:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-03 13:54:19.816985
- Title: Pruned RNN-T for fast, memory-efficient ASR training
- Title(参考訳): 高速・メモリ効率ASRトレーニングのためのPruned RNN-T
- Authors: Fangjun Kuang, Liyong Guo, Wei Kang, Long Lin, Mingshuang Luo, Zengwei
Yao, Daniel Povey
- Abstract要約: 音声認識のためのRNN-Transducer (RNN-T) フレームワークが人気を博している。
RNN-Tの欠点の1つは、損失関数の計算が比較的遅く、多くのメモリを使用することができることである。
本稿では,より高速でメモリ効率のよいRNN-T損失計算手法を提案する。
- 参考スコア(独自算出の注目度): 20.646465940322763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The RNN-Transducer (RNN-T) framework for speech recognition has been growing
in popularity, particularly for deployed real-time ASR systems, because it
combines high accuracy with naturally streaming recognition. One of the
drawbacks of RNN-T is that its loss function is relatively slow to compute, and
can use a lot of memory. Excessive GPU memory usage can make it impractical to
use RNN-T loss in cases where the vocabulary size is large: for example, for
Chinese character-based ASR. We introduce a method for faster and more
memory-efficient RNN-T loss computation. We first obtain pruning bounds for the
RNN-T recursion using a simple joiner network that is linear in the encoder and
decoder embeddings; we can evaluate this without using much memory. We then use
those pruning bounds to evaluate the full, non-linear joiner network.
- Abstract(参考訳): 音声認識のためのRNN-Transducer(RNN-T)フレームワークは、特にリアルタイムのASRシステムにおいて、高い精度と自然なストリーミング認識を組み合わせることで人気が高まっている。
RNN-Tの欠点の1つは、損失関数の計算が比較的遅く、多くのメモリを使用することができることである。
過剰なGPUメモリの使用は、例えば中国語文字ベースのASRの場合、語彙サイズが大きい場合、RNN-Tロスを非現実的に使用することができる。
本稿では,より高速でメモリ効率のよいRNN-T損失計算手法を提案する。
まず、エンコーダとデコーダの埋め込みに線形な単純な結合ネットワークを用いて、RNN-T再帰のプルーニング境界を求める。
次に、それらのプルーニングバウンダリを使用して、完全な非線形結合ネットワークを評価する。
関連論文リスト
- GhostRNN: Reducing State Redundancy in RNN with Cheap Operations [66.14054138609355]
本稿では,効率的なRNNアーキテクチャであるGhostRNNを提案する。
KWSとSEタスクの実験により、提案されたGhostRNNはメモリ使用量(40%)と計算コストを大幅に削減し、性能は類似している。
論文 参考訳(メタデータ) (2024-11-20T11:37:14Z) - Exploiting Symmetric Temporally Sparse BPTT for Efficient RNN Training [20.49255973077044]
この研究は、デルタRNNのトレーニングアルゴリズムを記述し、後方伝播フェーズにおける時間的間隔を利用してエッジでのトレーニングの計算要求を減らした。
その結果,Fluent Speech Commandsデータセット上で,56kパラメータのDelta LSTMをトレーニングするための行列演算の$sim$80%の削減効果が認められた。
提案したDelta RNNトレーニングは,限られたコンピューティングリソースを持つエッジデバイス上でのオンラインインクリメンタル学習に有用であることを示す。
論文 参考訳(メタデータ) (2023-12-14T23:07:37Z) - Reinforcement Learning with Fast and Forgetful Memory [10.087126455388276]
強化学習(RL)に特化して設計されたアルゴリズムに依存しないメモリモデルであるFast and Forgetful Memoryを導入する。
提案手法は,計算心理学に触発された強い構造的先行性を通じて,モデル探索空間を制約する。
Fast and Forgetful Memoryは、リカレントニューラルネットワーク(RNN)よりも2桁高速なトレーニング速度を示す
論文 参考訳(メタデータ) (2023-10-06T09:56:26Z) - Efficient Beam Tree Recursion [76.62673276574668]
Beam Tree Recursive Neural Network (BT-RvNN) はGumbel Tree RvNNの単純な拡張として提案されている。
BT-RvNNのメモリ使用量を10-16ドルで削減する戦略を提案する。
論文 参考訳(メタデータ) (2023-07-20T11:29:17Z) - Variable Bitrate Neural Fields [75.24672452527795]
本稿では,特徴格子を圧縮し,メモリ消費を最大100倍に削減する辞書手法を提案する。
辞書の最適化をベクトル量子化オートデコーダ問題として定式化し、直接監督できない空間において、エンドツーエンドの離散神経表現を学習する。
論文 参考訳(メタデータ) (2022-06-15T17:58:34Z) - Sequence Transduction with Graph-based Supervision [96.04967815520193]
ラベルのグラフ表現を受け入れるためにRNN-T損失を一般化するトランスデューサ目的関数を提案する。
CTC型格子を用いたトランスデューサベースのASRは,標準RNN-Tよりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-11-01T21:51:42Z) - iRNN: Integer-only Recurrent Neural Network [0.8766022970635899]
精度の高い整数専用リカレントニューラルネットワーク(iRNN)を得るための量子化学習法を提案する。
当社のiRNNは、フル精度のものと同等のパフォーマンスを維持しており、スマートフォンへの展開により、ランタイムのパフォーマンスが2倍、モデルサイズが4倍に向上しています。
論文 参考訳(メタデータ) (2021-09-20T20:17:40Z) - Alignment Restricted Streaming Recurrent Neural Network Transducer [29.218353627837214]
本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。
Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
論文 参考訳(メタデータ) (2020-11-05T19:38:54Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Exploring Pre-training with Alignments for RNN Transducer based
End-to-End Speech Recognition [39.497407288772386]
リカレントニューラルネットワークトランスデューサ(RNN-T)アーキテクチャは、エンドツーエンドの自動音声認識研究において、新たなトレンドとなっている。
本研究では、外部アライメントを活用してRNN-Tモデルをシードする。
エンコーダ事前学習(encoder pre-training)と全ネットワーク事前学習( whole-network pre-training)と呼ばれる2つの異なる事前学習ソリューションが検討されている。
論文 参考訳(メタデータ) (2020-05-01T19:00:57Z) - Recognizing Long Grammatical Sequences Using Recurrent Networks
Augmented With An External Differentiable Stack [73.48927855855219]
リカレントニューラルネットワーク(RNN)は、シーケンスモデリング、生成、予測に広く使われているディープアーキテクチャである。
RNNは、非常に長いシーケンスに対してあまり一般化せず、多くの重要な時間的処理や時系列予測問題に適用性を制限する。
これらの欠点に対処する方法の1つは、スタックのような外部の異なるメモリ構造とRNNを結合することである。
本稿では,重要なアーキテクチャと状態更新機構を備えたメモリ拡張RNNを改良する。
論文 参考訳(メタデータ) (2020-04-04T14:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。