論文の概要: Compute Cost Amortized Transformer for Streaming ASR
- arxiv url: http://arxiv.org/abs/2207.02393v1
- Date: Tue, 5 Jul 2022 03:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-07 14:23:09.032465
- Title: Compute Cost Amortized Transformer for Streaming ASR
- Title(参考訳): ストリーミングasr用計算コスト償却トランスフォーマ
- Authors: Yi Xie, Jonathan Macoskey, Martin Radfar, Feng-Ju Chang, Brian King,
Ariya Rastrow, Athanasios Mouchtaris, Grant P. Strimel
- Abstract要約: 本稿では,ストリーミングトランスフォーマーを用いたエンドツーエンド自動音声認識アーキテクチャを提案する。
我々のアーキテクチャは、推論時にスパース計算経路を動的に生成し、デコードを通して計算資源を選択的に活用する。
我々の最良のモデルでは、相対的な単語誤り率(WER)がわずか3%増加するだけで、60%の計算コスト削減が達成できる。
- 参考スコア(独自算出の注目度): 23.950740806308687
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a streaming, Transformer-based end-to-end automatic speech
recognition (ASR) architecture which achieves efficient neural inference
through compute cost amortization. Our architecture creates sparse computation
pathways dynamically at inference time, resulting in selective use of compute
resources throughout decoding, enabling significant reductions in compute with
minimal impact on accuracy. The fully differentiable architecture is trained
end-to-end with an accompanying lightweight arbitrator mechanism operating at
the frame-level to make dynamic decisions on each input while a tunable loss
function is used to regularize the overall level of compute against predictive
performance. We report empirical results from experiments using the compute
amortized Transformer-Transducer (T-T) model conducted on LibriSpeech data. Our
best model can achieve a 60% compute cost reduction with only a 3% relative
word error rate (WER) increase.
- Abstract(参考訳): 本稿では,計算コストの償却による効率的なニューラル推論を実現する,トランスフォーマティブに基づくエンドツーエンド自動音声認識(asr)アーキテクチャを提案する。
私たちのアーキテクチャは、推論時に動的にスパース計算経路を作成し、デコード全体を通して計算リソースを選択的に使用し、精度への影響を最小限に抑えることができる。
完全微分可能なアーキテクチャは、フレームレベルで動作し、各入力で動的決定を行う軽量調停器機構と共にエンドツーエンドに訓練され、一方、チューニング可能な損失関数は、予測性能に対する計算全体のレベルを定式化する。
本稿では,LibriSpeechデータを用いたコンピュータ・アモータイズ・トランスデューサ(T-T)モデルによる実験結果について報告する。
我々の最善のモデルは、平均単語誤り率(wer)を3%増加させるだけで60%の計算コスト削減を達成できます。
関連論文リスト
- Embedding-Free Transformer with Inference Spatial Reduction for Efficient Semantic Segmentation [15.377463849213033]
EFAは、グローバルな非線型性の機能に焦点を当てた、新しいグローバルなコンテキストモデリングメカニズムである。
ISR法では,推論フェーズにおけるキー値の分解能を低減し,計算性能とトレードオフのギャップを軽減できる。
EDAFormerは、既存のトランスフォーマーベースのセマンティックセグメンテーションモデルと比較して、効率的な計算で最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-07-24T13:24:25Z) - UIO-LLMs: Unbiased Incremental Optimization for Long-Context LLMs [111.12010207132204]
UIO-LLMsは、長いコンテキスト設定下でのメモリ拡張トランスフォーマーの漸進的な最適化手法である。
本稿では,TBPTTアルゴリズムを用いて学習過程を改良する。
UIO-LLMは、Llama2-7b-chatのコンテキストウィンドウを4Kから100Kトークンに、2%の追加パラメータで拡張するなど、長いコンテキストを扱うことに成功した。
論文 参考訳(メタデータ) (2024-06-26T08:44:36Z) - Switchable Decision: Dynamic Neural Generation Networks [98.61113699324429]
本稿では,各データインスタンスのリソースを動的に割り当てることで,推論を高速化するスイッチブルな決定を提案する。
提案手法は, 同一の精度を維持しながら, 推論時のコスト低減に有効である。
論文 参考訳(メタデータ) (2024-05-07T17:44:54Z) - Adaptive Computation Modules: Granular Conditional Computation For
Efficient Inference [13.000030080938078]
トランスモデルの計算コストは、低レイテンシや低消費電力のアプリケーションでは非効率である。
本稿では,適応計算モジュール (Adaptive Computation Module, ACM) を提案する。
コンピュータビジョンおよび音声認識におけるトランスフォーマーモデルの評価により,ACMを用いた置換層は,広範囲のユーザ定義予算において,下流の精度を低下させることなく,推論コストを大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-15T20:39:43Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Accelerating Attention through Gradient-Based Learned Runtime Pruning [9.109136535767478]
自己認識は、トランスフォーマーベースの自然言語処理モデルにおいて、最先端の精度を実現する重要な手段である。
本稿では、学習の損失関数に組み込まれたソフトな微分可能正規化器による探索を定式化する。
我々は、ビットレベルの早期終了マイクロアーキテクチャ機構を持つトランスフォーマー言語モデルに対して、LeOPArdと呼ばれるビットシリアルアーキテクチャを考案した。
論文 参考訳(メタデータ) (2022-04-07T05:31:13Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Controlling Computation versus Quality for Neural Sequence Models [42.525463454120256]
条件付き計算は、推論中にニューラルシーケンスモデル(トランスフォーマー)をより効率的かつ計算に適応させる。
i)WMT英仏訳と(ii)教師なし表現学習(BERT)の2つの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2020-02-17T17:54:27Z) - Channel Assignment in Uplink Wireless Communication using Machine
Learning Approach [54.012791474906514]
本稿では,アップリンク無線通信システムにおけるチャネル割り当て問題について検討する。
我々の目標は、整数チャネル割り当て制約を受ける全ユーザの総和率を最大化することです。
計算複雑性が高いため、機械学習アプローチは計算効率のよい解を得るために用いられる。
論文 参考訳(メタデータ) (2020-01-12T15:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。