論文の概要: Structured Sparsity and Weight-adaptive Pruning for Memory and Compute efficient Whisper models
- arxiv url: http://arxiv.org/abs/2510.12666v1
- Date: Tue, 14 Oct 2025 16:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.996613
- Title: Structured Sparsity and Weight-adaptive Pruning for Memory and Compute efficient Whisper models
- Title(参考訳): メモリと計算効率のよいWhisperモデルのための構造的疎度と重み適応プルーニング
- Authors: Prasenjit K Mudi, Anshi Sachan, Dahlia Devapriya, Sheetal Kalyani,
- Abstract要約: 本稿では,Whisperの微調整版を設計するためのフレームワークを提案する。
Sparse Group LASSOペナルティをロスレギュレータとして、構造化されたスパーシティーを施行する。
重み付きプルーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 10.89626315825337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whisper models have achieved remarkable progress in speech recognition; yet their large size remains a bottleneck for deployment on resource-constrained edge devices. This paper proposes a framework to design fine-tuned variants of Whisper which address the above problem. Structured sparsity is enforced via the Sparse Group LASSO penalty as a loss regularizer, to reduce the number of FLOating Point operations (FLOPs). Further, a weight statistics aware pruning algorithm is proposed. We also design our custom text normalizer for WER evaluation. On Common Voice 11.0 Hindi dataset, we obtain, without degrading WER, (a) 35.4% reduction in model parameters, 14.25% lower memory consumption and 18.5% fewer FLOPs on Whisper-small, and (b) 31% reduction in model parameters, 15.29% lower memory consumption and 16.95% fewer FLOPs on Whisper-medium; and, (c) substantially outperform the state-of-the-art Iterative Magnitude Pruning based method by pruning 18.7% more parameters along with a 12.31 reduction in WER.
- Abstract(参考訳): ウィスパーモデルは音声認識において顕著な進歩を遂げているが、その大きなサイズはリソース制約されたエッジデバイスへの展開のボトルネックとして残っている。
本稿では、上記の問題に対処するWhisperの微調整版を設計するためのフレームワークを提案する。
Sparse Group LASSOペナルティをロスレギュレータとして利用することで、FLO(Floating Point Operation)の数を削減している。
さらに,重量統計を考慮した刈り込みアルゴリズムを提案する。
WER評価のためのカスタムテキスト正規化器も設計する。
Common Voice 11.0 Hindi データセットでは、WERを劣化させることなく得られる。
(a)モデルパラメータの35.4%の削減、14.25%のメモリ消費、Whisper-small上のFLOPの18.5%の削減、および
(b)モデルパラメータの31%の削減、15.29%のメモリ消費、Whisper-medium上のFLOPの16.95%の削減、および
(c) WERの12.31の削減とともに18.7%以上のパラメータを刈り取ることにより、最先端の反復的マグニチュード・プルーニング法を大幅に上回った。
関連論文リスト
- End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。
重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。
実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - Self-Data Distillation for Recovering Quality in Pruned Large Language Models [1.5665059604715017]
ワンショットプルーニングは、特に多段階推論を必要とするタスクにおいて、大幅な品質劣化をもたらす。
品質の低下を回復するために、教師付き微調整(SFT)が一般的に用いられるが、これは破滅的な忘れを招きかねない。
本研究では,これらの課題に対処するために,自己データ蒸留ファインチューニングを利用する。
論文 参考訳(メタデータ) (2024-10-13T19:53:40Z) - FLoCoRA: Federated learning compression with low-rank adaptation [0.0]
Low-Rank Adaptation (LoRA)法は、数十億のパラメータを含むモデルの効率的なパラメータ微調整で人気を集めている。
本稿では,フェデレートラーニングにおけるLoRA手法の適用例を示す。
論文 参考訳(メタデータ) (2024-06-20T07:59:29Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - Efficient Speech Representation Learning with Low-Bit Quantization [32.75829498841329]
音声表現学習モデルにおける最近の量子化手法を適用し,検討する。
1ビットへのアグレッシブ量子化により、86.32%のストレージ削減(4.42 -> 25.23)、88%のランタイム削減(1.00 -> 0.12)とワードエラー率(7.06 -> 15.96)を達成した。
モデル圧縮も目的とするDistillHuBERTと比較すると、2ビット構成ではストレージがわずかに小さく(35.84対46.98)、ワードエラー率(12.68対13.37)、ランタイム推定(0.15対0.73)が向上した。
論文 参考訳(メタデータ) (2022-12-14T06:09:08Z) - Integral Continual Learning Along the Tangent Vector Field of Tasks [112.02761912526734]
本稿では,特殊データセットからの情報を段階的に組み込んだ軽量連続学習手法を提案する。
ソースデータセットの0.4%まで小さく、小さな固定サイズのメモリバッファを保持しており、単純な再サンプリングによって更新される。
提案手法は,異なるデータセットに対して,様々なバッファサイズで高い性能を実現する。
論文 参考訳(メタデータ) (2022-11-23T16:49:26Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - HRank: Filter Pruning using High-Rank Feature Map [149.86903824840752]
我々は高階特徴写像(HRank)を探索する新しいフィルタ刈り法を提案する。
私たちのHRankは、単一のフィルタで生成された複数の特徴マップの平均ランクが常に同じであるという発見にインスピレーションを受けています。
HRankに基づいて,低ランク特徴写像を持つプーンフィルタに数学的に定式化する手法を開発した。
論文 参考訳(メタデータ) (2020-02-24T11:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。