論文の概要: iFairy: the First 2-bit Complex LLM with All Parameters in $\{\pm1, \pm i\}$
- arxiv url: http://arxiv.org/abs/2508.05571v3
- Date: Sat, 16 Aug 2025 05:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 12:43:44.85481
- Title: iFairy: the First 2-bit Complex LLM with All Parameters in $\{\pm1, \pm i\}$
- Title(参考訳): iFairy:$\{\pm1, \pm i\}$ですべてのパラメータを持つ最初の2ビット複素LCM
- Authors: Feiyu Wang, Guoan Wang, Yihao Zhang, Shengfan Wang, Weitao Li, Bokai Huang, Shimao Chen, Zihan Jiang, Rui Xu, Tong Yang,
- Abstract要約: QAT(Quantization-Aware Training)は、量子化をトレーニングループに統合し、LLMが堅牢な低ビット表現を学習できるようにする。
複素数値 LLM のための最初の2ビット量子化フレームワークである Fairy$pm i$ を提案する。
我々は重みを単位の$pm1, pm i$の4番目の根にマッピングし、完全に対称で情報理論的に最適な2ビット表現を形成する。
- 参考スコア(独自算出の注目度): 12.184724224633609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization-Aware Training (QAT) integrates quantization into the training loop, enabling LLMs to learn robust low-bit representations, and is widely recognized as one of the most promising research directions. All current QAT research focuses on minimizing quantization error on full-precision models, where the full-precision accuracy acts as an upper bound (accuracy ceiling). No existing method has even attempted to surpass this ceiling. To break this ceiling, we propose a new paradigm: raising the ceiling (full-precision model), and then still quantizing it efficiently into 2 bits. We propose Fairy$\pm i$, the first 2-bit quantization framework for complex-valued LLMs. Specifically, our method leverages the representational advantages of the complex domain to boost full-precision accuracy. We map weights to the fourth roots of unity $\{\pm1, \pm i\}$, forming a perfectly symmetric and information-theoretically optimal 2-bit representation. Importantly, each quantized weight has either a zero real or imaginary part, enabling multiplication-free inference using only additions and element swaps. Experimental results show that Fairy$\pm i$ outperforms the ceiling of existing 2-bit quantization approaches in terms of both PPL and downstream tasks, while maintaining strict storage and compute efficiency. This work opens a new direction for building highly accurate and practical LLMs under extremely low-bit constraints.
- Abstract(参考訳): QAT(Quantization-Aware Training)は、量子化をトレーニングループに統合し、LLMがロバストな低ビット表現を学べるようにし、最も有望な研究方向の1つとして広く認識されている。
現在のQAT研究はすべて、完全精度モデルにおける量子化誤差の最小化に重点を置いている。
既存の方法は、この天井を越えようとしても試みられていない。
この天井を壊すために,天井(全精度モデル)を高くし,なおも効率的に2ビットに定量化するという新しいパラダイムを提案する。
複素数値 LLM のための最初の2ビット量子化フレームワークである Fairy$\pm i$ を提案する。
具体的には、複素領域の表現上の優位性を利用して、完全精度を向上する。
We map weights to the fourth roots of unity $\{\pm1, \pm i\}$, formed a perfect symmetric and information-theoretically optimal 2-bit representation。
重要なことは、各量子化されたウェイトはゼロ実数または虚数の部分を持ち、加算と要素スワップのみを用いる乗法のない推論を可能にすることである。
実験の結果、Fairy$\pm i$はPPLと下流の両方のタスクにおいて既存の2ビット量子化手法の天井を上回り、厳密なストレージと計算効率を維持していることがわかった。
この研究は、非常に低ビットの制約の下で、高精度で実用的なLCMを構築するための新しい方向を開く。
関連論文リスト
- Squeeze10-LLM: Squeezing LLMs' Weights by 10 Times via a Staged Mixed-Precision Quantization Method [37.70474075872739]
我々は16ビット言語モデルの重み付けを10倍にするためにSqueeze10-LLMを提案する。
重量の80%を1ビットに、20%から4ビットに定量化することで、重量当たり平均1.6ビットを達成する。
LLaMAとLLaMA2の実験により、Squeeze10-LLMは2ビット以下の重みのみの量子化に対して最先端の性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-07-24T03:55:19Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。
3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。
ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文 参考訳(メタデータ) (2025-02-04T18:59:26Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。
VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。
また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文 参考訳(メタデータ) (2024-09-25T16:25:45Z) - ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。
様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文 参考訳(メタデータ) (2024-08-16T06:39:08Z) - Q-Sparse: All Large Language Models can be Fully Sparsely-Activated [93.45300714803429]
Q-Sparseは、スパースアクティベートされた大規模言語モデル(LLM)を訓練するための、シンプルで効果的なアプローチである。
Q-Sparse は LLM における活性化の完全な分散を可能にし、推論においてかなりの効率向上をもたらす。
バッチトレーニングと推論のためのBlock Q-Sparseも導入しています。
論文 参考訳(メタデータ) (2024-07-15T17:59:29Z) - EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。
より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。
効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文 参考訳(メタデータ) (2024-07-10T17:53:30Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。
LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。
我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文 参考訳(メタデータ) (2023-10-07T14:50:28Z) - QuIP: 2-Bit Quantization of Large Language Models With Guarantees [44.212441764241]
本研究では,大規模言語モデル(LLM)における学習後のパラメータ量子化について研究する。
Incoherence Processing (QuIP) を用いた量子化を導入する。これは、$textitincoherent$ weight と Hessian matrices から量子化が恩恵を受けるという知見に基づく新しい方法である。
論文 参考訳(メタデータ) (2023-07-25T07:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。