論文の概要: Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning
- arxiv url: http://arxiv.org/abs/2504.11409v1
- Date: Tue, 15 Apr 2025 17:26:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:29.905557
- Title: Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning
- Title(参考訳): グループ対応SSMプルーニングによる効率的なハイブリッド言語モデル圧縮
- Authors: Ali Taghibakhshi, Sharath Turuvekere Sreenivas, Saurav Muralidharan, Marcin Chochowski, Yashaswi Karnati, Raviraj Joshi, Ameya Sunil Mahabaleshwarkar, Zijia Chen, Yoshi Suhara, Oluwatobi Olabiyi, Daniel Korzekwa, Mostofa Patwary, Mohammad Shoeybi, Jan Kautz, Bryan Catanzaro, Ashwath Aithal, Nima Tajbakhsh, Pavlo Molchanov,
- Abstract要約: 注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 54.584665518334035
- License:
- Abstract: Hybrid LLM architectures that combine Attention and State Space Models (SSMs) achieve state-of-the-art accuracy and runtime performance. Recent work has demonstrated that applying compression and distillation to Attention-only models yields smaller, more accurate models at a fraction of the training cost. In this work, we explore the effectiveness of compressing Hybrid architectures. We introduce a novel group-aware pruning strategy that preserves the structural integrity of SSM blocks and their sequence modeling capabilities. Furthermore, we demonstrate the necessity of such SSM pruning to achieve improved accuracy and inference speed compared to traditional approaches. Our compression recipe combines SSM, FFN, embedding dimension, and layer pruning, followed by knowledge distillation-based retraining, similar to the MINITRON technique. Using this approach, we compress the Nemotron-H 8B Hybrid model down to 4B parameters with up to 40x fewer training tokens. The resulting model surpasses the accuracy of similarly-sized models while achieving 2x faster inference, significantly advancing the Pareto frontier.
- Abstract(参考訳): 注意と状態空間モデル(SSM)を組み合わせたハイブリッドLLMアーキテクチャは、最先端の精度と実行時のパフォーマンスを実現する。
近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。
本研究では,ハイブリッドアーキテクチャの圧縮の有効性について検討する。
本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
さらに,従来の手法と比較して精度と推論速度を向上させるために,このようなSSMプルーニングの必要性を示す。
圧縮法は,SSM,FFN,埋込み寸法,層プレーニングを併用し,知識蒸留による再訓練を行った。
このアプローチを用いて,Nemotron-H 8Bハイブリッドモデルを最大40倍のトレーニングトークンで4Bパラメータに圧縮する。
結果として得られたモデルは、同様のサイズのモデルの精度を上回り、2倍高速な推論を実現し、パレートフロンティアを著しく前進させる。
関連論文リスト
- Hymba: A Hybrid-head Architecture for Small Language Models [65.94140459055244]
Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
論文 参考訳(メタデータ) (2024-11-20T19:51:25Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。
ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - Model Compression Method for S4 with Diagonal State Space Layers using Balanced Truncation [0.0]
本稿では, モデル圧縮手法として, 事前学習したS4モデルのDSS層に適用した, 制御理論における一般的なモデル縮小手法であるバランストランケーションを提案する。
数値実験により,従来のSkiw-HiPPOを用いたモデルよりも,トレーニングモデルとバランスの取れたトランケーションが優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T05:22:45Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Chemical transformer compression for accelerating both training and
inference of molecular modeling [6.98497133151762]
量子構造活性相関(QSAR)や仮想スクリーニング(VS)などの応用において優れた性能を持つトランスフォーマーモデルが分子科学で開発されている。
本研究は,分子科学におけるトランスフォーマーのサイズを減らすために,クロス層パラメータ共有 (CLPS) と知識蒸留 (KD) を用いる。
CLPSとKDを二状態ケミカルネットワークに統合することにより、新しいディープライトケミカルトランスモデルDeLiCaTeを導入する。
論文 参考訳(メタデータ) (2022-05-16T11:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。