論文の概要: BaldWhisper: Faster Whisper with Head Shearing and Layer Merging
- arxiv url: http://arxiv.org/abs/2510.08599v1
- Date: Mon, 06 Oct 2025 17:04:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.093153
- Title: BaldWhisper: Faster Whisper with Head Shearing and Layer Merging
- Title(参考訳): BaldWhisper: ヘッドシェアリングとレイヤマージを備えたより高速なWhisper
- Authors: Yaya Sy, Christophe Cerisara, Irina Illina,
- Abstract要約: Distill-WhisperはWhisperを40%上回り、21,000時間のスピーチで再訓練する。
そこで本研究では,音声からテキストまでの32時間で,Bambaraに着目した新たなプルーニングレシピを提案する。
最終モデルはオリジナルの性能の90%を保ち、MacBook Air M1では48%小さく、2.15倍高速である。
- 参考スコア(独自算出の注目度): 9.991706230252708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning large pre-trained transformers for low-resource languages is challenging, as it often requires massive retraining data to recover performance. For instance, Distill-Whisper prunes Whisper by 40% and retrains on 21,000 hours of speech, far beyond what is available for most languages. Can Whisper be made lighter and faster for edge devices in data-scarce settings? Focusing on Bambara with only 32h of speech-to-text data, we propose a new pruning recipe. Instead of vocabulary pruning, which is unsuitable due to frequent code-switching by Bambara speakers, we compress the embeddings with low-rank decomposition and feature distillation. Rather than removing layers, we merge them to limit performance loss. The final model preserves 90% of the original performance while being 48% smaller and 2.15x faster on a MacBook Air M1.
- Abstract(参考訳): 低リソース言語のための大規模な事前学習型トランスフォーマーの運用は、パフォーマンス回復のために大規模なリトレーニングデータを必要とすることが多いため、難しい。
例えば、Distill-Whisper prunes Whisperは40%アップし、21,000時間のスピーチで再訓練される。
Whisperは、データスカース設定でエッジデバイスでより軽量で高速にできますか?
音声からテキストまでのデータの32時間しか持たないBambaraに着目し,新しいプルーニングレシピを提案する。
バンバラ話者による頻繁なコードスイッチングにより不適な語彙プルーニングの代わりに、低ランク分解と特徴蒸留で埋め込みを圧縮する。
レイヤを削除する代わりに、パフォーマンス損失を制限するためにそれらをマージします。
最終モデルはオリジナルの性能の90%を保ち、MacBook Air M1では48%小さく、2.15倍高速である。
関連論文リスト
- Scalable LLM Math Reasoning Acceleration with Low-rank Distillation [57.922185576872444]
資源効率の高い蒸留法を提案し, 効率的な推論手法の展開から損失能力を回収する。
もともとの重みは未成熟で、パラメータの約1%、合成トレーニングサンプルは20Kに過ぎなかった。
論文 参考訳(メタデータ) (2025-05-08T17:51:24Z) - Large Language Models Are Overparameterized Text Encoders [17.608805125623803]
大規模言語モデル(LLM)は、教師付きコントラスト訓練で微調整されたテキスト埋め込みモデルとして高い性能を示す。
我々は,LLMの最後の$p%のレイヤーを1000ステップの指導訓練前に刈り取ることで,メモリと推論時間の比例的に削減できることを示す。
論文 参考訳(メタデータ) (2024-10-18T16:26:45Z) - Distil-Whisper: Robust Knowledge Distillation via Large-Scale Pseudo
Labelling [75.74809713084282]
Distil-Whisperは投機的復号化のためにWhisperとペアで設計されており、2倍のスピードアップを実現している。
Distil-Whisperは5.8倍高速で、パラメータは51%少ない。
この領域におけるさらなる研究を促進するため、トレーニングコード、推論コード、モデルが一般に公開されています。
論文 参考訳(メタデータ) (2023-11-01T10:45:07Z) - BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - Using fine-tuning and min lookahead beam search to improve Whisper [8.799617195804489]
我々はWhisperを付加データに基づいて微調整し、改良された復号アルゴリズムを提案する。
ベトナム語では、LoRAで微調整されたWhisper-Tinyは、ゼロショットのWhisper-Tiny設定よりもWERで38.49の改善を実現している。
また、Min LookaheadがWhisperで使われる標準ビーム探索アルゴリズムより優れているという定理も証明する。
論文 参考訳(メタデータ) (2023-09-19T04:04:14Z) - DQ-Whisper: Joint Distillation and Quantization for Efficient Multilingual Speech Recognition [46.019298534344834]
効率的な推論のためにWhisperを圧縮する新しい共同蒸留・量子化フレームワークを提案する。
モデルサイズの最大5.18倍の削減は、限界性能劣化によって達成される。
論文 参考訳(メタデータ) (2023-05-18T08:00:09Z) - A Fast Post-Training Pruning Framework for Transformers [74.59556951906468]
プルーニングは、大きなTransformerモデルの巨大な推論コストを削減する効果的な方法である。
モデルプルーニングの以前の作業では、モデルの再トレーニングが必要だった。
本稿では,再学習を必要としないトランスフォーマーのための高速な訓練後プルーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-29T07:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。