Fugu-MT 論文翻訳(概要): Zebra-Llama: Towards Extremely Efficient Hybrid Models

論文の概要: Zebra-Llama: Towards Extremely Efficient Hybrid Models

arxiv url: http://arxiv.org/abs/2505.17272v1
Date: Thu, 22 May 2025 20:39:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.687022
Title: Zebra-Llama: Towards Extremely Efficient Hybrid Models
Title（参考訳）: Zebra-Llama: 極めて効率的なハイブリッドモデルを目指して
Authors: Mingyu Yang, Mehdi Rezagholizadeh, Guihong Li, Vikram Appia, Emad Barsoum,
Abstract要約: 大規模言語モデル(LLM)に代わる実用的でスケーラブルな代替案を提案する。 Zebra-LlamaはState Space Models (SSM)とMulti-head Latent Attention (MLA)レイヤを組み合わせて、事前訓練されたトランスフォーマーから知識を効率的に転送する。 Zebra-Llama Transformerの精度は7-11Bのトレーニングトークンと8Bの教師しか使用していない。
参考スコア（独自算出の注目度）: 23.023849840907594
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With the growing demand for deploying large language models (LLMs) across diverse applications, improving their inference efficiency is crucial for sustainable and democratized access. However, retraining LLMs to meet new user-specific requirements is prohibitively expensive and environmentally unsustainable. In this work, we propose a practical and scalable alternative: composing efficient hybrid language models from existing pre-trained models. Our approach, Zebra-Llama, introduces a family of 1B, 3B, and 8B hybrid models by combining State Space Models (SSMs) and Multi-head Latent Attention (MLA) layers, using a refined initialization and post-training pipeline to efficiently transfer knowledge from pre-trained Transformers. Zebra-Llama achieves Transformer-level accuracy with near-SSM efficiency using only 7-11B training tokens (compared to trillions of tokens required for pre-training) and an 8B teacher. Moreover, Zebra-Llama dramatically reduces KV cache size -down to 3.9%, 2%, and 2.73% of the original for the 1B, 3B, and 8B variants, respectively-while preserving 100%, 100%, and >97% of average zero-shot performance on LM Harness tasks. Compared to models like MambaInLLaMA, X-EcoMLA, Minitron, and Llamba, Zebra-Llama consistently delivers competitive or superior accuracy while using significantly fewer tokens, smaller teachers, and vastly reduced KV cache memory. Notably, Zebra-Llama-8B surpasses Minitron-8B in few-shot accuracy by 7% while using 8x fewer training tokens, over 12x smaller KV cache, and a smaller teacher (8B vs. 15B). It also achieves 2.6x-3.8x higher throughput (tokens/s) than MambaInLlama up to a 32k context length. We will release code and model checkpoints upon acceptance.
Abstract（参考訳）: 多様なアプリケーションにまたがって大きな言語モデル(LLM)をデプロイする需要が高まっているため、その推論効率の改善は持続的で民主化されたアクセスにとって不可欠である。しかし、新たなユーザ固有の要件を満たすためにLLMを再訓練することは、極めて高価であり、環境的にも持続不可能である。本研究では,既存の事前学習モデルから効率的なハイブリッド言語モデルを合成する,実用的でスケーラブルな代替案を提案する。我々のアプローチであるZebra-Llamaはステートスペースモデル(SSM)とマルチヘッド遅延注意(MLA)レイヤを組み合わせた1B、3B、8Bハイブリッドモデルのファミリーを導入し、改良された初期化とポストトレーニングパイプラインを使用して、事前訓練されたトランスフォーマーからの知識を効率的に伝達する。 Zebra-Llamaは、7-11Bのトレーニングトークン(事前トレーニングに必要なトークン数に比較して)と8Bの教師のみを使用してトランスフォーマーレベルの精度をほぼSSM効率で達成している。さらに、Zebra-LlamaはKVキャッシュサイズを劇的に減らし、1B、3B、および8Bのオリジナルモデルの2.73%に減らし、それぞれ100%、100%、および97%のゼロショット性能をLM Harnessタスクで維持した。 MambaInLLaMA、X-EcoMLA、Minitron、Llambaといったモデルと比較して、Zebra-Llamaは、トークンをはるかに少なくし、教師を小さくし、KVキャッシュメモリを大幅に削減しながら、競争力や優れた精度を提供する。注目すべきは、Zebra-Llama-8BがMinitron-8Bをわずかに上回り、トレーニングトークンが8倍、KVキャッシュが12倍、教師(8B vs. 15B)が小さいことだ。また、MambaInLlamaの32kコンテキスト長よりも2.6x-3.8倍高いスループット(トークン/秒)を実現している。受け入れ次第、コードとモデルチェックポイントをリリースします。

関連論文リスト

MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining [60.02032710118597]
提案するMiMo-7Bは,学習前の段階と学習後の段階にまたがって最適化された,推論タスクのための大規模言語モデルである。 MiMo-7B-Baseは25兆のトークンで事前訓練されており、性能の向上と推論速度の高速化を目標としている。最後のRLチューニングモデルであるMiMo-7B-RLは、OpenAI o1-miniの性能を上回り、数学、コード、一般的な推論タスクにおいて優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-12T14:30:11Z)
X-EcoMLA: Upcycling Pre-Trained Attention into MLA for Efficient and Extreme KV Compression [23.023849840907594]
MLA(Multi-head Latent attention)は、KVキャッシュメモリを低ランクキー値のジョイント圧縮により最適化するように設計されている。提案手法は,ベンチマークの性能を保ちながら,KVキャッシュを効果的に圧縮できることを示す。
論文参考訳（メタデータ） (2025-03-14T06:49:37Z)
Lillama: Large Language Models Compression via Low-Rank Feature Distillation [8.090496457850852]
ライラマ(英: Lillama)は、低ランク重量で活性化を蒸留する圧縮法である。 1つのA100 GPUでMixtral-8x7Bを数分で圧縮し、100億のパラメータを削除し、元のパフォーマンスの95%以上を保持した。非トランスフォーマーアーキテクチャを一般化し、99%のパフォーマンスを維持しながら、Mamba-3Bを20%圧縮する。
論文参考訳（メタデータ） (2024-12-21T18:04:01Z)
Llama 3 Meets MoE: Efficient Upcycling [1.8337958765930928]
本研究では,Llama 3-8B から 8-Expert Top-2 MoE モデルをトレーニングし,事前学習の典型的な計算値の 1% 以下で,事前学習した高密度チェックポイントを活用する効率的なトレーニングレシピを提案する。提案手法は,学術ベンチマークのダウンストリーム性能を向上し,MMLUの0ショット精度を$textbf2%で向上させる。トレーニング済み重量をシームレスに使用するために、NeMoのオンラインアップサイクルも統合し、高容量のMoEモデルの開発に費用対効果が期待できる。
論文参考訳（メタデータ） (2024-12-13T08:22:19Z)
The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留する方法を示す。結果として得られたハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。また,Mambaとハイブリッドモデルの推論速度を高速化するハードウェア対応投機的復号アルゴリズムを導入する。
論文参考訳（メタデータ） (2024-08-27T17:56:11Z)
Compact Language Models via Pruning and Knowledge Distillation [61.56557874432008]
ミニトロンモデルでは、スクラッチからのトレーニングに比べてMMLUスコアが最大16%改善している。すでにトレーニング済みの15Bモデルから8Bと4Bモデルを抽出するには、スクラッチからトレーニングするよりも、モデル毎のトレーニングトークンを最大40倍少なくする必要があります。
論文参考訳（メタデータ） (2024-07-19T21:47:57Z)
An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文参考訳（メタデータ） (2024-06-12T05:25:15Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
FP8-LM: Training FP8 Large Language Models [47.17804713425323]
本稿では,大規模言語モデルの学習のためのFP8自動混合精度フレームワークを提案する。実験の結果,H100 GPUプラットフォーム上でのGPT-175Bモデルのトレーニングにおいて,我々のFP8混合精度トレーニングフレームワークは,実際のメモリ使用量の39%削減だけでなく,広く採用されているBF16フレームワークよりも75%高速に動作したことがわかった。
論文参考訳（メタデータ） (2023-10-27T17:59:51Z)
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。 ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文参考訳（メタデータ） (2021-11-18T06:48:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。