論文の概要: Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR
- arxiv url: http://arxiv.org/abs/2304.00171v1
- Date: Fri, 31 Mar 2023 23:30:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 19:30:12.742427
- Title: Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR
- Title(参考訳): Practical Conformer: オンデバイスおよびクラウド ASR 用 Conformer のサイズ,速度,フロップの最適化
- Authors: Rami Botros, Anmol Gulati, Tara N. Sainath, Krzysztof Choromanski,
Ruoming Pang, Trevor Strohman, Weiran Wang, Jiahui Yu
- Abstract要約: 我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
- 参考スコア(独自算出の注目度): 67.63332492134332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conformer models maintain a large number of internal states, the vast
majority of which are associated with self-attention layers. With limited
memory bandwidth, reading these from memory at each inference step can slow
down inference. In this paper, we design an optimized conformer that is small
enough to meet on-device restrictions and has fast inference on TPUs. We
explore various ideas to improve the execution speed, including replacing lower
conformer blocks with convolution-only blocks, strategically downsizing the
architecture, and utilizing an RNNAttention-Performer. Our optimized conformer
can be readily incorporated into a cascaded-encoder setting, allowing a
second-pass decoder to operate on its output and improve the accuracy whenever
more resources are available. Altogether, we find that these optimizations can
reduce latency by a factor of 6.8x, and come at a reasonable trade-off in
quality. With the cascaded second-pass, we show that the recognition accuracy
is completely recoverable. Thus, our proposed encoder can double as a strong
standalone encoder in on device, and as the first part of a high-performance
ASR pipeline.
- Abstract(参考訳): コンフォーメータモデルは多数の内部状態を保持しており、その大半は自己着脱層と関連している。
メモリ帯域幅が限られているため、各推論ステップでのメモリからの読み出しは推論を遅くすることができる。
本稿では、デバイス上での制約を満たすのに十分な小型で、TPUを高速に推論できる最適化コンバータを設計する。
本稿では,下位コンバータブロックを畳み込みのみのブロックに置き換え,アーキテクチャの戦略的縮小,RNNAttention-Performerの利用など,実行速度を改善するためのさまざまなアイデアを検討する。
最適化されたコンフォーメータはカスケードエンコーダ設定に容易に組み込むことができ、第2パスデコーダがその出力で動作でき、より多くのリソースが利用できる場合の精度が向上します。
いずれにせよ、これらの最適化はレイテンシを6.8倍削減し、品質の適切なトレードオフをもたらす可能性がある。
カスケードされた第2パスを用いて,認識精度が完全に回復可能であることを示す。
したがって,提案するエンコーダは,デバイス上で強力なスタンドアロンエンコーダとして,高性能asrパイプラインの第1部として2倍にすることができる。
関連論文リスト
- Local Clustering Decoder: a fast and adaptive hardware decoder for the surface code [0.0]
本稿では,リアルタイムデコードシステムの精度と速度要件を同時に達成するソリューションとしてローカルクラスタリングデコーダを紹介する。
我々のデコーダはFPGA上に実装され、ハードウェア並列性を利用して、最速のキュービットタイプにペースを保ちます。
通常の非適応復号法と比較して4倍少ない物理量子ビットを持つ100万個の誤りのない量子演算を可能にする。
論文 参考訳(メタデータ) (2024-11-15T16:43:59Z) - SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。
SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文 参考訳(メタデータ) (2024-10-28T07:13:25Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Coding for Gaussian Two-Way Channels: Linear and Learning-Based
Approaches [28.98777190628006]
線形符号化と学習ベース符号化の2つの異なる双方向符号化方式を提案する。
学習に基づくコーディングには、新しいリカレントニューラルネットワーク(RNN)ベースのコーディングアーキテクチャを導入する。
我々の双方向符号化方式は、従来のチャネル符号化方式よりも格段に優れている。
論文 参考訳(メタデータ) (2023-12-31T12:40:18Z) - Stateful Conformer with Cache-based Inference for Streaming Automatic Speech Recognition [20.052245837954175]
本稿では,FastConformerアーキテクチャに基づく,効率的かつ正確な音声認識モデルを提案する。
我々は,非自己回帰エンコーダが推論中に自己回帰的に動作できるようにするために,アクティベーションキャッシング機構を導入する。
CTCとRNNTデコーダを共用した共有エンコーダを用いたハイブリッドCTC/RNNTアーキテクチャにより、精度の向上と計算の保存が可能となる。
論文 参考訳(メタデータ) (2023-12-27T21:04:26Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Automatic Mapping of the Best-Suited DNN Pruning Schemes for Real-Time
Mobile Acceleration [71.80326738527734]
本稿では,汎用的,きめ細かな構造化プルーニング手法とコンパイラの最適化を提案する。
提案手法は,より微細な構造化プルーニング手法とともに,最先端のDNN最適化フレームワークよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-22T23:53:14Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。