Fugu-MT 論文翻訳(概要): Iterative Compression of End-to-End ASR Model using AutoML

論文の概要: Iterative Compression of End-to-End ASR Model using AutoML

arxiv url: http://arxiv.org/abs/2008.02897v1
Date: Thu, 6 Aug 2020 22:33:10 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-02 06:43:47.785227
Title: Iterative Compression of End-to-End ASR Model using AutoML
Title（参考訳）: AutoMLを用いたエンドツーエンドASRモデルの反復圧縮
Authors: Abhinav Mehrotra, {\L}ukasz Dudziak, Jinsu Yeo, Young-yoon Lee, Ravichander Vipperla, Mohamed S. Abdelfattah, Sourav Bhattacharya, Samin Ishtiaq, Alberto Gil C. P. Ramos, SangJeong Lee, Daehyun Kim, Nicholas D. Lane
Abstract要約: 現在のAutoMLベースの検索技術は,ある圧縮レベルまでしか動作せず,許容単語誤り率(WER)の圧縮モデルの生成に失敗することを示す。本研究では,WERを劣化させることなく5倍以上の圧縮を達成し,ASR圧縮の最先端化を図るための反復型AutoMLベースのLRF手法を提案する。
参考スコア（独自算出の注目度）: 25.032304467241158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Increasing demand for on-device Automatic Speech Recognition (ASR) systems has resulted in renewed interests in developing automatic model compression techniques. Past research have shown that AutoML-based Low Rank Factorization (LRF) technique, when applied to an end-to-end Encoder-Attention-Decoder style ASR model, can achieve a speedup of up to 3.7x, outperforming laborious manual rank-selection approaches. However, we show that current AutoML-based search techniques only work up to a certain compression level, beyond which they fail to produce compressed models with acceptable word error rates (WER). In this work, we propose an iterative AutoML-based LRF approach that achieves over 5x compression without degrading the WER, thereby advancing the state-of-the-art in ASR compression.
Abstract（参考訳）: オンデバイス自動音声認識(ASR)システムの需要が増大し、自動モデル圧縮技術の開発に新たな関心が寄せられている。従来の研究では、エンド・ツー・エンドのEncoder-Attention-DecoderスタイルのASRモデルに適用されたAutoMLベースの低ランク因子化(LRF)技術が最大3.7倍の高速化を実現し、厳しい手動のランク選択手法よりも優れていることが示されている。しかし、現在のAutoMLベースの検索技術は、ある圧縮レベルまでしか機能せず、それ以外は許容される単語誤り率(WER)の圧縮モデルを生成できないことを示す。本研究では,WERを劣化させることなく5倍以上の圧縮を達成し,ASR圧縮の最先端化を図るための反復型AutoMLベースのLRF手法を提案する。

関連論文リスト

QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。 APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文参考訳（メタデータ） (2025-05-31T06:10:10Z)
LiteASR: Efficient Automatic Speech Recognition with Low-Rank Approximation [23.51191930926061]
本稿では,ASRエンコーダの低ランク圧縮方式であるLiteASRを導入する。評価の結果,Whisperの大容量v3エンコーダサイズを50%以上圧縮し,Whisper媒体サイズと転写精度を比較検討した。
論文参考訳（メタデータ） (2025-02-27T22:52:21Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
SoftLMs: Efficient Adaptive Low-Rank Approximation of Language Models using Soft-Thresholding Mechanism [1.7170348600689374]
本稿では,ソフトしきい値設定機構を用いて各層のランクを動的に決定する新しい圧縮手法を提案する。本手法は,識別タスクのBERTや生成タスクのGPT2,TinyLlamaなど,注目に基づくアーキテクチャに適用可能である。実験により,提案手法はエンコーダ/デコーダにおける1.33Xから1.72Xの高速化を実現し,全パラメータの50%削減を実現した。
論文参考訳（メタデータ） (2024-11-15T19:29:51Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
In-Context Former: Lightning-fast Compressing Context for Large Language Model [48.831304302467004]
本稿では,Transformer-based large language model (LLM) の長期入力コンテキストを圧縮する手法を提案する。我々は,単語の埋め込みから情報を集めるために,クロスアテンション機構と少数の学習可能なダイジェストトークンを使用する。実験の結果, 圧縮時のベースライン浮動小数点演算の1/32しか必要とせず, 処理速度を68倍から112倍に向上することがわかった。
論文参考訳（メタデータ） (2024-06-19T15:14:55Z)
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文参考訳（メタデータ） (2023-10-09T14:10:21Z)
Learning Accurate Performance Predictors for Ultrafast Automated Model Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文参考訳（メタデータ） (2023-04-13T10:52:49Z)
AutoMC: Automated Model Compression based on Domain Knowledge and Progressive search strategy [5.16507824054135]
AutoMCはモデル圧縮のための効果的な自動ツールである。モデル圧縮にドメイン知識を構築し、各圧縮方法の特徴と利点を理解する。パーレト最適圧縮スキームを効率的に探索するプログレッシブ検索戦略を提案する。
論文参考訳（メタデータ） (2022-01-24T04:24:31Z)
Relaxed Attention: A Simple Method to Boost Performance of End-to-End Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。 WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文参考訳（メタデータ） (2021-07-02T21:01:17Z)
Sparsification via Compressed Sensing for Automatic Speech Recognition [0.0]
大規模機械学習アプリケーションはモデル量子化と圧縮を必要とする。本稿では,これらの問題に効果的に対応するために,圧縮センシングベースプルーニング(CSP)手法を提案する。 CSPは文学における既存のアプローチよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2021-02-09T16:41:31Z)
ALF: Autoencoder-based Low-rank Filter-sharing for Efficient Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。 ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文参考訳（メタデータ） (2020-07-27T09:01:22Z)
AutoGAN-Distiller: Searching to Compress Generative Adversarial Networks [98.71508718214935]
既存のGAN圧縮アルゴリズムは、特定のGANアーキテクチャの処理と損失に限られている。近年の深部圧縮におけるAutoMLの成功に触発されて,GAN圧縮にAutoMLを導入し,AutoGAN-Distillerフレームワークを開発した。我々はAGDを画像翻訳と超解像の2つの代表的なGANタスクで評価する。
論文参考訳（メタデータ） (2020-06-15T07:56:24Z)
Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文参考訳（メタデータ） (2020-01-08T18:58:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。