論文の概要: Speed of Light Exact Greedy Decoding for RNN-T Speech Recognition Models on GPU
- arxiv url: http://arxiv.org/abs/2406.03791v1
- Date: Thu, 6 Jun 2024 07:03:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 16:09:36.690840
- Title: Speed of Light Exact Greedy Decoding for RNN-T Speech Recognition Models on GPU
- Title(参考訳): GPU上のRNN-T音声認識モデルにおける光励起グレディ復号の高速化
- Authors: Daniel Galvez, Vladimir Bataev, Hainan Xu, Tim Kaldewey,
- Abstract要約: 現在の最先端のRNN-Tデコード実装は、GPUアイドルを80%残している。
本稿では,このアイドル時間を排除したRNN-Tモデルに対して,GPUによるgreedyデコーディングの正確な実装を提案する。
この作業により、11億のパラメータ RNN-T モデルでも、同様のサイズの CTC モデルよりもわずか16%遅く動作することができる。
- 参考スコア(独自算出の注目度): 4.40828913399992
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of inference time for RNN Transducer (RNN-T) models today is spent on decoding. Current state-of-the-art RNN-T decoding implementations leave the GPU idle ~80% of the time. Leveraging a new CUDA 12.4 feature, CUDA graph conditional nodes, we present an exact GPU-based implementation of greedy decoding for RNN-T models that eliminates this idle time. Our optimizations speed up a 1.1 billion parameter RNN-T model end-to-end by a factor of 2.5x. This technique can applied to the "label looping" alternative greedy decoding algorithm as well, achieving 1.7x and 1.4x end-to-end speedups when applied to 1.1 billion parameter RNN-T and Token and Duration Transducer models respectively. This work enables a 1.1 billion parameter RNN-T model to run only 16% slower than a similarly sized CTC model, contradicting the common belief that RNN-T models are not suitable for high throughput inference. The implementation is available in NVIDIA NeMo.
- Abstract(参考訳): 現在のRNNトランスデューサ(RNN-T)モデルの推論時間の大部分はデコードに費やされている。
現在の最先端のRNN-Tデコード実装はGPUアイドルを80%程度残している。
CUDA 12.4 の新たな機能である CUDA グラフ条件ノードを活用することで,このアイドル時間を排除した RNN-T モデルのgreedy decoding をGPU ベースで実装する。
パラメータRNN-Tモデルのエンド・ツー・エンドを2.5倍高速化する。
この手法は、それぞれ11億のパラメータ RNN-T と Token と Duration Transducer モデルに適用した場合に、1.7x と 1.4x のエンドツーエンドのスピードアップを達成する「ラベルループ」代替グリーディ復号アルゴリズムにも適用できる。
この作業により、11億のパラメータ RNN-T モデルは、同じ大きさの CTC モデルよりもわずか 16% 遅いだけしか実行でき、RNN-T モデルは高いスループットの推論には適さないという一般的な信念に矛盾する。
実装はNVIDIA NeMoで利用可能である。
関連論文リスト
- Were RNNs All We Needed? [53.393497486332]
従来のリカレントニューラルネットワーク(RNN)を10年以上前から再検討しています。
入力から隠れた状態依存を取り除くことで、LSTMやGRUはBPTTを必要とせず、並列で効率的に訓練できることを示す。
論文 参考訳(メタデータ) (2024-10-02T03:06:49Z) - On the Computational Complexity and Formal Hierarchy of Second Order
Recurrent Neural Networks [59.85314067235965]
2次次リカレントネットワーク(RNN)の理論基盤を拡大する(2次RNN)
有界時間でチューリング完備な RNN のクラスが存在することを証明している。
また、記憶のない2ドルのRNNは、バニラRNNのような現代のモデルよりも優れており、正規文法の認識において繰り返し単位をゲートしていることを示す。
論文 参考訳(メタデータ) (2023-09-26T06:06:47Z) - DNNShifter: An Efficient DNN Pruning System for Edge Computing [1.853502789996996]
ディープニューラルネットワーク(DNN)は多くの機械学習アプリケーションを支える。
生産品質のDNNモデルは、膨大なリソースフットプリントを持つ数百万のDNNパラメータをトレーニングすることで、高い推論精度を達成する。
これは、計算資源やメモリ資源が限られているモバイルや組み込みデバイスのような、ネットワークの極端で運用するリソースにとっての課題である。
既存のプルーニング手法は、大幅な時間コストとオーバーヘッドを伴わず、未処理のプルーニングモデルと同じような品質のモデルを提供できないか、オフラインのユースケースに限定される。
我々の研究は、原モデルの精度を維持しつつ、適切なモデル変種を迅速に導き出す。
論文 参考訳(メタデータ) (2023-09-13T14:05:50Z) - INK: Injecting kNN Knowledge in Nearest Neighbor Machine Translation [57.952478914459164]
kNN-MTは、推論中に隣接する表現に基づいて予測を円滑にするための効果的なパラダイムを提供する。
我々は,kNN近傍の表現を少数の新しいパラメータで調整することで,表現空間を円滑にするための効果的なトレーニングフレームワークINKを提案する。
4つのベンチマークデータセットでの実験では、メソッドは1.99 COMETと1.0 BLEUの平均ゲインを達成し、0.02倍のメモリ空間と1.9倍の推論速度を持つ最先端のkNN-MTシステムより優れていた。
論文 参考訳(メタデータ) (2023-06-10T08:39:16Z) - Reducing ANN-SNN Conversion Error through Residual Membrane Potential [19.85338979292052]
スパイキングニューラルネットワーク(SNN)は、低消費電力のユニークな特性とニューロモルフィックチップ上の高速コンピューティングにより、広く学術的な注目を集めている。
本稿では,不均一な誤差を詳細に解析し,それを4つのカテゴリに分割する。
本研究では,残膜電位に基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2023-02-04T04:44:31Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Alignment Restricted Streaming Recurrent Neural Network Transducer [29.218353627837214]
本稿では、RNN-T損失関数の修正とアライメント制限付きRNN-Tモデルの開発について述べる。
Ar-RNN-T損失は、トークン放出遅延とワードエラーレート(WER)の間のトレードオフをナビゲートする洗練された制御を提供する。
Ar-RNN-Tモデルは、任意の遅延範囲内でトークンの放出を保証することにより、ASRエンドポイントのような下流アプリケーションを改善する。
論文 参考訳(メタデータ) (2020-11-05T19:38:54Z) - A Token-wise CNN-based Method for Sentence Compression [31.9210679048841]
文圧縮は、原文の短縮とキー情報の保存を目的とした自然言語処理(NLP)タスクである。
現在の手法は主に処理速度の悪いリカレントニューラルネットワーク(RNN)モデルに基づいている。
本稿では,CNN ベースモデルであるトークンワイド・コナールニューラルネットワークと,削除に基づく文圧縮のための事前学習された双方向表現(BERT)機能を提案する。
論文 参考訳(メタデータ) (2020-09-23T17:12:06Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Attention-based Transducer for Online Speech Recognition [11.308675771607753]
本稿では,RNN-Tを改良したアテンションベーストランスデューサを提案する。
我々は,共同ネットワークにチャンクワイズアテンションを導入し,エンコーダに自己注意を導入する。
提案モデルでは,トレーニング速度と精度の両方において,RNN-Tよりも優れていた。
論文 参考訳(メタデータ) (2020-05-18T07:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。