論文の概要: Iterative Compression of End-to-End ASR Model using AutoML
- arxiv url: http://arxiv.org/abs/2008.02897v1
- Date: Thu, 6 Aug 2020 22:33:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 06:43:47.785227
- Title: Iterative Compression of End-to-End ASR Model using AutoML
- Title(参考訳): AutoMLを用いたエンドツーエンドASRモデルの反復圧縮
- Authors: Abhinav Mehrotra, {\L}ukasz Dudziak, Jinsu Yeo, Young-yoon Lee,
Ravichander Vipperla, Mohamed S. Abdelfattah, Sourav Bhattacharya, Samin
Ishtiaq, Alberto Gil C. P. Ramos, SangJeong Lee, Daehyun Kim, Nicholas D.
Lane
- Abstract要約: 現在のAutoMLベースの検索技術は,ある圧縮レベルまでしか動作せず,許容単語誤り率(WER)の圧縮モデルの生成に失敗することを示す。
本研究では,WERを劣化させることなく5倍以上の圧縮を達成し,ASR圧縮の最先端化を図るための反復型AutoMLベースのLRF手法を提案する。
- 参考スコア(独自算出の注目度): 25.032304467241158
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Increasing demand for on-device Automatic Speech Recognition (ASR) systems
has resulted in renewed interests in developing automatic model compression
techniques. Past research have shown that AutoML-based Low Rank Factorization
(LRF) technique, when applied to an end-to-end Encoder-Attention-Decoder style
ASR model, can achieve a speedup of up to 3.7x, outperforming laborious manual
rank-selection approaches. However, we show that current AutoML-based search
techniques only work up to a certain compression level, beyond which they fail
to produce compressed models with acceptable word error rates (WER). In this
work, we propose an iterative AutoML-based LRF approach that achieves over 5x
compression without degrading the WER, thereby advancing the state-of-the-art
in ASR compression.
- Abstract(参考訳): オンデバイス自動音声認識(ASR)システムの需要が増大し、自動モデル圧縮技術の開発に新たな関心が寄せられている。
従来の研究では、エンド・ツー・エンドのEncoder-Attention-DecoderスタイルのASRモデルに適用されたAutoMLベースの低ランク因子化(LRF)技術が最大3.7倍の高速化を実現し、厳しい手動のランク選択手法よりも優れていることが示されている。
しかし、現在のAutoMLベースの検索技術は、ある圧縮レベルまでしか機能せず、それ以外は許容される単語誤り率(WER)の圧縮モデルを生成できないことを示す。
本研究では,WERを劣化させることなく5倍以上の圧縮を達成し,ASR圧縮の最先端化を図るための反復型AutoMLベースのLRF手法を提案する。
関連論文リスト
- SoftLMs: Efficient Adaptive Low-Rank Approximation of Language Models using Soft-Thresholding Mechanism [1.7170348600689374]
本稿では,ソフトしきい値設定機構を用いて各層のランクを動的に決定する新しい圧縮手法を提案する。
本手法は,識別タスクのBERTや生成タスクのGPT2,TinyLlamaなど,注目に基づくアーキテクチャに適用可能である。
実験により,提案手法はエンコーダ/デコーダにおける1.33Xから1.72Xの高速化を実現し,全パラメータの50%削減を実現した。
論文 参考訳(メタデータ) (2024-11-15T19:29:51Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。
我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。
実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-19T15:14:55Z) - LLMLingua: Compressing Prompts for Accelerated Inference of Large
Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。
本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。
提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文 参考訳(メタデータ) (2023-10-09T14:10:21Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - AutoMC: Automated Model Compression based on Domain Knowledge and
Progressive search strategy [5.16507824054135]
AutoMCはモデル圧縮のための効果的な自動ツールである。
モデル圧縮にドメイン知識を構築し、各圧縮方法の特徴と利点を理解する。
パーレト最適圧縮スキームを効率的に探索するプログレッシブ検索戦略を提案する。
論文 参考訳(メタデータ) (2022-01-24T04:24:31Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Sparsification via Compressed Sensing for Automatic Speech Recognition [0.0]
大規模機械学習アプリケーションはモデル量子化と圧縮を必要とする。
本稿では,これらの問題に効果的に対応するために,圧縮センシングベースプルーニング(CSP)手法を提案する。
CSPは文学における既存のアプローチよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:41:31Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - AutoGAN-Distiller: Searching to Compress Generative Adversarial Networks [98.71508718214935]
既存のGAN圧縮アルゴリズムは、特定のGANアーキテクチャの処理と損失に限られている。
近年の深部圧縮におけるAutoMLの成功に触発されて,GAN圧縮にAutoMLを導入し,AutoGAN-Distillerフレームワークを開発した。
我々はAGDを画像翻訳と超解像の2つの代表的なGANタスクで評価する。
論文 参考訳(メタデータ) (2020-06-15T07:56:24Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。