論文の概要: Spectra 1.1: Scaling Laws and Efficient Inference for Ternary Language Models
- arxiv url: http://arxiv.org/abs/2506.23025v1
- Date: Sat, 28 Jun 2025 22:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.673485
- Title: Spectra 1.1: Scaling Laws and Efficient Inference for Ternary Language Models
- Title(参考訳): Spectra 1.1: 第三言語モデルのスケーリング法則と効率的な推論
- Authors: Tejas Vaidhya, Ayush Kaushal, Vineet Jain, Francis Couture Harpin, Prashant Shishodia, Majid Behbahani, Yuriy Nevmyvaka, Irina Rish,
- Abstract要約: 大規模言語モデル(LLM)は、研究や産業アプリケーションでますます使われているが、推論効率は依然として大きな課題である。
本稿では,メモリ要求を大幅に低減するために,量子化学習を用いた3次言語モデル(TriLM)について検討する。
最大1.2兆のトークンでトレーニングされたTriLMのオープンスイートであるSpectra-1.1を導入する。
- 参考スコア(独自算出の注目度): 12.98064202867316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) are increasingly used across research and industry applications, yet their inference efficiency remains a significant challenge. As the computational power of modern GPU architectures continuously improves, their memory bandwidth and capacity have not scaled proportionally, creating a critical bottleneck during inference. To address this, we investigate ternary language models (TriLMs) that employ quantization-aware training to significantly reduce memory requirements. We first analyze the scalability of TriLMs by conducting a scaling law analysis, revealing that TriLMs benefit more from increasing training data than from scaling model parameters. Based on this observation, we introduce Spectra-1.1, an open suite of TriLMs trained on up to 1.2 trillion tokens, demonstrating sustained performance gains at scale. Furthermore, to improve inference efficiency, we propose novel 2-bit and 1.6-bit packing schemes for ternary weights, which demonstrate accelerated inference across various CPU architectures. Also, building on the 2-bit packing, we develop a GPU kernel called TriRun that accelerates end-to-end model inference by up to 5 times compared to floating-point baselines. To encourage further exploration and development of TriLMs, we will release the Spectra-1.1 suite and TriRun inference kernels. Overall, our work lays the foundation for building and deploying efficient LLMs, providing a valuable resource for the research community.
- Abstract(参考訳): 大規模言語モデル(LLM)は、研究や産業アプリケーションで広く使われているが、推論効率は依然として大きな課題である。
現代のGPUアーキテクチャの計算能力が継続的に向上するにつれて、メモリ帯域幅とキャパシティは比例しないため、推論時に重要なボトルネックとなる。
そこで本研究では,量子化学習を用いた3次言語モデル(TriLM)について検討し,メモリ要求を大幅に低減する。
まず,スケーリング法則解析によりTriLMのスケーラビリティを解析し,モデルパラメータのスケーリングよりもトレーニングデータの増加がTriLMのメリットであることを明らかにする。
この観測に基づいて、最大1.2兆のトークンでトレーニングされたTriLMのオープンスイートであるSpectra-1.1を紹介し、大規模なパフォーマンス向上を実証する。
さらに、推論効率を向上させるために、3次重みに対する新しい2ビットおよび1.6ビットのパッキング方式を提案し、様々なCPUアーキテクチャにおける推論の高速化を示す。
また、2ビットパッキングをベースにしたTriRunと呼ばれるGPUカーネルを開発し、浮動小数点点ベースラインの最大5倍のエンドツーエンドモデル推論を高速化する。
TriLMのさらなる探索と開発を促進するため、Spectra-1.1スイートとTriRun推論カーネルをリリースする。
全体として、我々の研究は、効率的なLLMの構築と展開の基礎を築き、研究コミュニティにとって貴重なリソースを提供しています。
関連論文リスト
- Scaling Laws for Speculative Decoding [7.618542964397237]
本研究では,高密度言語モデル(LLM)を用いた投機的復号化手法について検討する。
論理線形スケーリング法則(理論 1.1, 1.2, 1.3)が3次元にわたるドラフトモデル受入率(あるいは復号速度)を規定している。
一般的なLLMの多次元スケーリングをコーディネートするScyllaを実現する。
論文 参考訳(メタデータ) (2025-05-08T11:10:15Z) - Search for Efficient Large Language Models [52.98684997131108]
大規模言語モデル(LLMs)は、人工知能研究の領域で長い間停滞してきた。
軽量プルーニング、量子化、蒸留がLLMの圧縮に取り入れられ、メモリの削減と推論の加速を狙った。
ほとんどのモデル圧縮技術は、最適アーキテクチャの探索を見越して重量最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-09-25T21:32:12Z) - Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。
広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Recurrent Drafter for Fast Speculative Decoding in Large Language Models [18.342742904042673]
本稿では,高度な投機的復号法であるRecurrent Drafterを提案する。
大規模言語モデル(LLM)推論の最先端の高速化を実現する。
論文 参考訳(メタデータ) (2024-03-14T23:40:56Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。