論文の概要: Accurate and Structured Pruning for Efficient Automatic Speech
Recognition
- arxiv url: http://arxiv.org/abs/2305.19549v1
- Date: Wed, 31 May 2023 04:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:40:34.622845
- Title: Accurate and Structured Pruning for Efficient Automatic Speech
Recognition
- Title(参考訳): 効率的な自動音声認識のための高精度・構造化プルーニング
- Authors: Huiqiang Jiang, Li Lyna Zhang, Yuang Li, Yu Wu, Shijie Cao, Ting Cao,
Yuqing Yang, Jinyu Li, Mao Yang, Lili Qiu
- Abstract要約: 本稿では,コンバータモデルのモデルサイズと推論コストを削減するための新しい圧縮手法を提案する。
提案手法は, モデルサイズを50%削減し, 推論コストを28%削減し, 性能損失を最小限に抑える。
- 参考スコア(独自算出の注目度): 23.897482741744117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) has seen remarkable advancements with deep
neural networks, such as Transformer and Conformer. However, these models
typically have large model sizes and high inference costs, posing a challenge
to deploy on resource-limited devices. In this paper, we propose a novel
compression strategy that leverages structured pruning and knowledge
distillation to reduce the model size and inference cost of the Conformer model
while preserving high recognition performance. Our approach utilizes a set of
binary masks to indicate whether to retain or prune each Conformer module, and
employs L0 regularization to learn the optimal mask values. To further enhance
pruning performance, we use a layerwise distillation strategy to transfer
knowledge from unpruned to pruned models. Our method outperforms all pruning
baselines on the widely used LibriSpeech benchmark, achieving a 50% reduction
in model size and a 28% reduction in inference cost with minimal performance
loss.
- Abstract(参考訳): 自動音声認識(ASR)は、TransformerやConformerといったディープニューラルネットワークによって著しく進歩している。
しかし、これらのモデルは通常、大きなモデルサイズと高い推論コストを持ち、リソース制限されたデバイスへのデプロイが難しい。
本稿では,構造化プルーニングと知識蒸留を利用して,コンフォーマーモデルのモデルサイズと推論コストを低減し,高い認識性能を維持した新しい圧縮戦略を提案する。
提案手法では,各コンフォーマーモジュールの保持かプループかを示すために二項マスクを用いて,最適マスク値の学習にL0正規化を用いる。
プルーニング性能をさらに高めるため,非プルーニングモデルからプルーニングモデルへの知識の伝達に層状蒸留戦略を用いる。
提案手法は,広く使用されているLibriSpeechベンチマークのすべてのプルーニングベースラインを上回り,モデルサイズを50%削減し,推論コストを28%削減し,性能損失を最小限に抑える。
関連論文リスト
- Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - You Only Prune Once: Designing Calibration-Free Model Compression With Policy Learning [20.62274005080048]
PruneNetは、ポリシー学習プロセスとしてモデルプルーニングを再構成する新しいモデル圧縮手法である。
LLaMA-2-7Bモデルはわずか15分で圧縮でき、ゼロショット性能の80%以上を維持できる。
複雑なマルチタスク言語理解タスクでは、PruneNetはオリジナルのモデルの80%のパフォーマンスを維持することで、その堅牢性を実証している。
論文 参考訳(メタデータ) (2025-01-25T18:26:39Z) - Lightweight and Post-Training Structured Pruning for On-Device Large Lanaguage Models [11.93284417365518]
我々は,ハイブリッド・グラニュラリティ・プルーニング戦略を用いた軽量なポストトレーニング構造化プルーニング手法Compumを紹介する。
Compは、LLM-Prunerと比較して20%のプルーニング比でLLaMA-2-7Bモデルの性能を6.13%向上させる。
論文 参考訳(メタデータ) (2025-01-25T16:03:58Z) - Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。
具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。
提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-12-17T01:09:23Z) - Comb, Prune, Distill: Towards Unified Pruning for Vision Model Compression [24.119415458653616]
我々はモデル非依存とタスク非依存の両方に同時に対処する新しい統一型刈取フレームワークComb, Prune, Distill (CPD)を提案する。
当社のフレームワークは階層的な階層的な依存性問題を解決するための統合的なステップを採用しており、アーキテクチャの独立性を実現しています。
画像分類では、精度が1.8%、セマンティックセグメンテーションがx1.89、mIoUが5.1%のスピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-06T09:02:31Z) - LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights [2.8461446020965435]
本稿では,遅延拡散モデル圧縮のための新しい性能保存型構造化プルーニング手法であるLD-Prunerを紹介する。
我々は,テキスト・トゥ・イメージ(T2I)生成,無条件画像生成(UIG),無条件音声生成(UAG)の3つのタスクに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-18T06:35:37Z) - MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with
Module-wise Pruning Error Metric [57.3330687266266]
より小さな事前学習モデルを用いてCLIPモデルに等級に基づくプルーニングを適用すると、柔軟性が低下し、性能が低下することがわかった。
The Module-wise Pruning Error (MoPE) metric, we introduced a unified pruning framework for both pre-training and task-specific fine-tuning compression stage。
論文 参考訳(メタデータ) (2024-03-12T17:24:26Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。