論文の概要: TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling
- arxiv url: http://arxiv.org/abs/2602.07374v1
- Date: Sat, 07 Feb 2026 05:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.590328
- Title: TernaryLM: Memory-Efficient Language Modeling via Native 1-Bit Quantization with Adaptive Layer-wise Scaling
- Title(参考訳): TernaryLM: 適応的なレイヤワイドスケーリングを備えたネイティブ1ビット量子化によるメモリ効率の高い言語モデリング
- Authors: Nisharg Nargund, Priyesh Shukla,
- Abstract要約: 本稿では, ネイティブな1ビット3次量子化 -1, 0, +1 を用いた 132M パラメータトランスフォーマアーキテクチャである TernaryLM を提案する。
この結果から,ネイティブな1ビットトレーニングが,効率的なニューラルネットワークモデルにとって有望な方向であることが示唆された。
- 参考スコア(独自算出の注目度): 0.39287497907611874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) achieve remarkable performance but demand substantial computational resources, limiting deployment on edge devices and resource-constrained environments. We present TernaryLM, a 132M parameter transformer architecture that employs native 1-bit ternary quantization {-1, 0, +1} during training, achieving significant memory reduction without sacrificing language modeling capability. Unlike post-training quantization approaches that quantize pre-trained full-precision models, TernaryLM learns quantization-aware representations from scratch using straight-through estimators and adaptive per-layer scaling factors. Our experiments demonstrate: (1) validation perplexity of 58.42 on TinyStories; (2) downstream transfer with 82.47 percent F1 on MRPC paraphrase detection; (3) 2.4x memory reduction (498MB vs 1197MB) with comparable inference latency; and (4) stable training dynamics across diverse corpora. We provide layer-wise quantization analysis showing that middle transformer layers exhibit highest compatibility with extreme quantization, informing future non-uniform precision strategies. Our results suggest that native 1-bit training is a promising direction for efficient neural language models. Code is available at https://github.com/1nisharg/TernaryLM-Memory-Efficient-Language-Modeling.
- Abstract(参考訳): 大規模言語モデル(LLM)は、優れたパフォーマンスを実現するが、相当な計算資源を必要とし、エッジデバイスやリソース制約のある環境への展開を制限する。
学習中にネイティブな1ビット3ビット量子化 {-1, 0, +1} を利用する132Mパラメータトランスフォーマアーキテクチャである TernaryLM について述べる。
事前学習された完全精度モデルを定量化するポストトレーニング量子化アプローチとは異なり、TernaryLMはストクラッチからストレートスルー推定器と適応層ごとのスケーリング係数を用いて量子化対応表現を学習する。
実験では,(1)TinyStories上の58.42の妥当性検証,(2)MRPCパラフレーズ検出における82.47パーセントF1のダウンストリーム転送,(3)推論遅延に匹敵する2.4倍のメモリ削減(498MB対1197MB),(4)多様なコーパス間の安定したトレーニングダイナミクスを実証した。
我々は,中間変圧器層が極端量子化と高い整合性を示し,将来的な非一様精度の戦略を示す層ワイド量子化解析を行う。
この結果から,ネイティブな1ビットトレーニングが,効率的なニューラルネットワークモデルにとって有望な方向であることが示唆された。
コードはhttps://github.com/1nisharg/TernaryLM-Memory-Efficient-Language-Modelingで公開されている。
関連論文リスト
- Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - Scalable MatMul-free Language Modeling [9.048532540945086]
MatMul操作は、大きな言語モデルから除外できる。
最大2.7BパラメータのモデルでテストされるMatMulフリーモデルは、最先端のトレーニング済みトランスフォーマーに匹敵する。
論文 参考訳(メタデータ) (2024-06-04T17:50:34Z) - TEQ: Trainable Equivalent Transformation for Quantization of LLMs [1.0376648762140632]
TEQは、低精度量子化を生かしながら、モデル出力のFP32精度を保存する訓練可能な等価変換である。
トレーニングプロセスは軽量で、1Kステップしか必要とせず、オリジナルのモデルのトレーニング可能なパラメータの0.1%未満である。
論文 参考訳(メタデータ) (2023-10-17T02:42:34Z) - Fine-Tuning Language Models with Just Forward Passes [92.04219196752007]
微調整言語モデル(LM)は、様々な下流タスクで成功したが、LMのサイズが大きくなるにつれて、バックプロパゲーションは大量のメモリを必要とする。
本稿では,メモリ効率の高いゼロソーダ(MeZO)を提案する。
論文 参考訳(メタデータ) (2023-05-27T02:28:10Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。