論文の概要: Zebra-Llama: Towards Extremely Efficient Hybrid Models
- arxiv url: http://arxiv.org/abs/2505.17272v1
- Date: Thu, 22 May 2025 20:39:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.687022
- Title: Zebra-Llama: Towards Extremely Efficient Hybrid Models
- Title(参考訳): Zebra-Llama: 極めて効率的なハイブリッドモデルを目指して
- Authors: Mingyu Yang, Mehdi Rezagholizadeh, Guihong Li, Vikram Appia, Emad Barsoum,
- Abstract要約: 大規模言語モデル(LLM)に代わる実用的でスケーラブルな代替案を提案する。
Zebra-LlamaはState Space Models (SSM)とMulti-head Latent Attention (MLA)レイヤを組み合わせて、事前訓練されたトランスフォーマーから知識を効率的に転送する。
Zebra-Llama Transformerの精度は7-11Bのトレーニングトークンと8Bの教師しか使用していない。
- 参考スコア(独自算出の注目度): 23.023849840907594
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With the growing demand for deploying large language models (LLMs) across diverse applications, improving their inference efficiency is crucial for sustainable and democratized access. However, retraining LLMs to meet new user-specific requirements is prohibitively expensive and environmentally unsustainable. In this work, we propose a practical and scalable alternative: composing efficient hybrid language models from existing pre-trained models. Our approach, Zebra-Llama, introduces a family of 1B, 3B, and 8B hybrid models by combining State Space Models (SSMs) and Multi-head Latent Attention (MLA) layers, using a refined initialization and post-training pipeline to efficiently transfer knowledge from pre-trained Transformers. Zebra-Llama achieves Transformer-level accuracy with near-SSM efficiency using only 7-11B training tokens (compared to trillions of tokens required for pre-training) and an 8B teacher. Moreover, Zebra-Llama dramatically reduces KV cache size -down to 3.9%, 2%, and 2.73% of the original for the 1B, 3B, and 8B variants, respectively-while preserving 100%, 100%, and >97% of average zero-shot performance on LM Harness tasks. Compared to models like MambaInLLaMA, X-EcoMLA, Minitron, and Llamba, Zebra-Llama consistently delivers competitive or superior accuracy while using significantly fewer tokens, smaller teachers, and vastly reduced KV cache memory. Notably, Zebra-Llama-8B surpasses Minitron-8B in few-shot accuracy by 7% while using 8x fewer training tokens, over 12x smaller KV cache, and a smaller teacher (8B vs. 15B). It also achieves 2.6x-3.8x higher throughput (tokens/s) than MambaInLlama up to a 32k context length. We will release code and model checkpoints upon acceptance.
- Abstract(参考訳): 多様なアプリケーションにまたがって大きな言語モデル(LLM)をデプロイする需要が高まっているため、その推論効率の改善は持続的で民主化されたアクセスにとって不可欠である。
しかし、新たなユーザ固有の要件を満たすためにLLMを再訓練することは、極めて高価であり、環境的にも持続不可能である。
本研究では,既存の事前学習モデルから効率的なハイブリッド言語モデルを合成する,実用的でスケーラブルな代替案を提案する。
我々のアプローチであるZebra-Llamaはステートスペースモデル(SSM)とマルチヘッド遅延注意(MLA)レイヤを組み合わせた1B、3B、8Bハイブリッドモデルのファミリーを導入し、改良された初期化とポストトレーニングパイプラインを使用して、事前訓練されたトランスフォーマーからの知識を効率的に伝達する。
Zebra-Llamaは、7-11Bのトレーニングトークン(事前トレーニングに必要なトークン数に比較して)と8Bの教師のみを使用してトランスフォーマーレベルの精度をほぼSSM効率で達成している。
さらに、Zebra-LlamaはKVキャッシュサイズを劇的に減らし、1B、3B、および8Bのオリジナルモデルの2.73%に減らし、それぞれ100%、100%、および97%のゼロショット性能をLM Harnessタスクで維持した。
MambaInLLaMA、X-EcoMLA、Minitron、Llambaといったモデルと比較して、Zebra-Llamaは、トークンをはるかに少なくし、教師を小さくし、KVキャッシュメモリを大幅に削減しながら、競争力や優れた精度を提供する。
注目すべきは、Zebra-Llama-8BがMinitron-8Bをわずかに上回り、トレーニングトークンが8倍、KVキャッシュが12倍、教師(8B vs. 15B)が小さいことだ。
また、MambaInLlamaの32kコンテキスト長よりも2.6x-3.8倍高いスループット(トークン/秒)を実現している。
受け入れ次第、コードとモデルチェックポイントをリリースします。
関連論文リスト
- X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression [23.023849840907594]
MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。
提案手法は,ベンチマークの性能を保ちながら,KVキャッシュを効果的に圧縮できることを示す。
論文 参考訳(メタデータ) (2025-03-14T06:49:37Z) - Lillama: Large Language Models Compression via Low-Rank Feature Distillation [8.090496457850852]
ライラマ(英: Lillama)は、低ランク重量で活性化を蒸留する圧縮法である。
1つのA100 GPUでMixtral-8x7Bを数分で圧縮し、100億のパラメータを削除し、元のパフォーマンスの95%以上を保持した。
非トランスフォーマーアーキテクチャを一般化し、99%のパフォーマンスを維持しながら、Mamba-3Bを20%圧縮する。
論文 参考訳(メタデータ) (2024-12-21T18:04:01Z) - Llama 3 Meets MoE: Efficient Upcycling [1.8337958765930928]
本研究では,Llama 3-8B から 8-Expert Top-2 MoE モデルをトレーニングし,事前学習の典型的な計算値の 1% 以下で,事前学習した高密度チェックポイントを活用する効率的なトレーニングレシピを提案する。
提案手法は,学術ベンチマークのダウンストリーム性能を向上し,MMLUの0ショット精度を$textbf2%で向上させる。
トレーニング済み重量をシームレスに使用するために、NeMoのオンラインアップサイクルも統合し、高容量のMoEモデルの開発に費用対効果が期待できる。
論文 参考訳(メタデータ) (2024-12-13T08:22:19Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。
結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。
すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文 参考訳(メタデータ) (2024-07-19T21:47:57Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。