論文の概要: An Extra RMSNorm is All You Need for Fine Tuning to 1.58 Bits
- arxiv url: http://arxiv.org/abs/2505.08823v1
- Date: Mon, 12 May 2025 21:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.24114
- Title: An Extra RMSNorm is All You Need for Fine Tuning to 1.58 Bits
- Title(参考訳): 追加のRMSNormは1.58ビットまで微調整できる
- Authors: Cody Steinmetz, Gavin Childress, Aaron Herbst, Gavin Jones, Jasdeep Singh, Eli Vang, Keagan Weinstock,
- Abstract要約: トレーニング後の量子化はメモリと計算を減少させるが、しばしば精度を低下させる。
三進法(2ビット)に量子化をプッシュすると、さらに大きな貯蓄が得られるが、非常に不安定である。
私たちのアプローチは、標準的な言語モデリングベンチマークにおいて、より精巧な知識蒸留パイプラインに適合するか、超越しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have transformed natural-language processing, yet their scale makes real-world deployment costly. Post-training quantization reduces memory and computation but often degrades accuracy, while quantization-aware training can recover performance at the cost of extra training. Pushing quantization to the ternary (2-bit) regime yields even larger savings but is notoriously unstable. Building on recent work showing that a bias-free, RMS-normalized Transformer with straight-through estimation can reach 1.58-bit precision, we demonstrate that simply inserting RMS normalization before every linear projection and applying a gradual, layer-wise quantization schedule stably fine-tunes full-precision checkpoints into ternary LLMs. Our approach matches or surpasses more elaborate knowledge-distillation pipelines on standard language-modeling benchmarks without adding model complexity. These results indicate that careful normalization alone can close much of the accuracy gap between ternary and full-precision LLMs, making ultra-low-bit inference practical.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理に変化をもたらしたが、その規模は現実世界のデプロイメントにコストがかかる。
後トレーニングの量子化はメモリと計算を減少させるが、しばしば精度を低下させるが、量子化対応のトレーニングは余分なトレーニングのコストでパフォーマンスを回復することができる。
三進法(2ビット)に量子化をプッシュすると、さらに大きな貯蓄が得られるが、非常に不安定である。
直線方向推定によるバイアスフリーのRMS正規化変圧器が1.58ビットの精度に達することを示す最近の研究に基づいて、線形射影毎にRMS正規化を挿入し、段階的に層単位での量子化スケジュールを安定して3次LLMに完全精度チェックポイントを適用できることを実証した。
我々のアプローチは、モデルの複雑さを増すことなく、標準的な言語モデリングベンチマークでより精巧な知識蒸留パイプラインに適合するか、超越します。
これらの結果から, 注意正規化だけで三進法と完全精度の LLM の精度ギャップの大部分を埋めることが可能であり, 超低ビット推論が実用的であることが示唆された。
関連論文リスト
- QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.730213115659986]
言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。
従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。
本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T22:20:31Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [45.37278584462772]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。
提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。
LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文 参考訳(メタデータ) (2025-01-05T18:41:54Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。