論文の概要: FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization
- arxiv url: http://arxiv.org/abs/2104.02882v1
- Date: Wed, 7 Apr 2021 03:15:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:39:55.758305
- Title: FSR: Accelerating the Inference Process of Transducer-Based Models by
Applying Fast-Skip Regularization
- Title(参考訳): fsr:高速スキップ正則化によるトランスデューサモデルの推定過程の高速化
- Authors: Zhengkun Tian, Jiangyan Yi, Ye Bai, Jianhua Tao, Shuai Zhang, Zhengqi
Wen
- Abstract要約: 典型的なトランスデューサモデルは、現在の音響状態に条件付き出力シーケンスをデコードします。
予測結果に含まれる空白のトークンの数は、すべてのトークンの90%近くを占める。
本稿では,トランスデューサが予測する空白位置とCTCモデルが予測する空白位置を一致させようとする高速スキップ正規化法を提案する。
- 参考スコア(独自算出の注目度): 72.9385528828306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transducer-based models, such as RNN-Transducer and transformer-transducer,
have achieved great success in speech recognition. A typical transducer model
decodes the output sequence conditioned on the current acoustic state and
previously predicted tokens step by step. Statistically, The number of blank
tokens in the prediction results accounts for nearly 90\% of all tokens. It
takes a lot of computation and time to predict the blank tokens, but only the
non-blank tokens will appear in the final output sequence. Therefore, we
propose a method named fast-skip regularization, which tries to align the blank
position predicted by a transducer with that predicted by a CTC model. During
the inference, the transducer model can predict the blank tokens in advance by
a simple CTC project layer without many complicated forward calculations of the
transducer decoder and then skip them, which will reduce the computation and
improve the inference speed greatly. All experiments are conducted on a public
Chinese mandarin dataset AISHELL-1. The results show that the fast-skip
regularization can indeed help the transducer model learn the blank position
alignments. Besides, the inference with fast-skip can be speeded up nearly 4
times with only a little performance degradation.
- Abstract(参考訳): RNN-TransducerやTransducer-Transducerのようなトランスデューサベースのモデルは音声認識において大きな成功を収めている。
典型的なトランスデューサモデルは、現在の音響状態と予測済みトークンの出力シーケンスを段階的に復号する。
統計的には、予測結果の空白トークンの数は、全てのトークンの90%近くを占める。
空白トークンを予測するのに多くの計算と時間がかかるが、最終的な出力シーケンスには非ブランクトークンのみが現れる。
そこで本研究では,トランスデューサが予測する空白位置とctcモデルが予測する空白位置を整合させるfast-skip正規化法を提案する。
推論中、トランスデューサモデルは、トランスデューサデコーダの複雑なフォワード計算の多くを必要とせずに、単純なCTCプロジェクト層によって事前に空白トークンを予測し、それらをスキップすることで、計算を削減し、推論速度を大幅に改善することができる。
すべての実験は、中国のマンダリンデータセットAISHELL-1で行われている。
その結果、高速スキップ正規化はトランスデューサモデルが空白位置アライメントを学習するのに役立つことがわかった。
さらに、fast-skipによる推論は、パフォーマンスが少し低下するだけで、ほぼ4倍のスピードアップが可能だ。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Paraformer: Fast and Accurate Parallel Transformer for
Non-autoregressive End-to-End Speech Recognition [62.83832841523525]
そこで我々はParaformerと呼ばれる高速かつ高精度な並列トランスを提案する。
出力トークンの数を正確に予測し、隠れた変数を抽出する。
10倍以上のスピードアップで、最先端のARトランスフォーマーに匹敵するパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2022-06-16T17:24:14Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Non-Autoregressive Transformer ASR with CTC-Enhanced Decoder Input [54.82369261350497]
CTCモジュールの予測を精算することでターゲットシーケンスを生成するCTC拡張NARトランスを提案する。
実験結果から,Aishell-1およびAishell-2データセットでは,Aishell-1およびAishell-2データセットの絶対CER劣化が0。
論文 参考訳(メタデータ) (2020-10-28T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。