論文の概要: FAIRY2I: Universal Extremely-Low Bit QAT framework via Widely-Linear Representation and Phase-Aware Quantization
- arxiv url: http://arxiv.org/abs/2512.02901v1
- Date: Tue, 02 Dec 2025 16:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.959094
- Title: FAIRY2I: Universal Extremely-Low Bit QAT framework via Widely-Linear Representation and Phase-Aware Quantization
- Title(参考訳): FAIRY2I: 広義の表現と位相アウェア量子化による普遍的極低ビットQATフレームワーク
- Authors: Feiyu Wang, Xinyu Tan, Bokai Huang, Yihao Zhang, Guoan Wang, Peizhuang Cong, Tong Yang,
- Abstract要約: 事前学習された実数値層を等価な広線形複素形式に変換する普遍的なフレームワークである Fairy2i を提案する。
また,Fairy2iはLLaMA-2 7Bの性能を実効2ビット精度で復元することを示した。
- 参考スコア(独自算出の注目度): 11.09481608287424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized artificial intelligence, yet their massive memory and computational demands necessitate aggressive quantization, increasingly pushing representations toward the theoretical limit of a single bit. While complex-valued LLMs, such as iFairy, offer a superior chance for low-bit representation compared to real-valued counterparts, they require training from scratch, preventing the utilization of the vast ecosystem of pre-trained real-valued foundation models. Here we present Fairy2i, a universal framework that transforms pre-trained real-valued layers into an equivalent widely-linear complex form, enabling extremely low-bit quantization while reusing existing checkpoints. By proving a lossless mathematical equivalence between real and widely-linear maps, we convert standard Transformers into the complex domain and employ a phase-aware quantization scheme with a highly efficient codebook of fourth roots of unity. Furthermore, we introduce a recursive residual quantization mechanism that iteratively minimizes quantization error, allowing inference to proceed via efficient multiplication-free accumulation. We demonstrate that Fairy2i restores the performance of LLaMA-2 7B at an effective 2-bit precision to levels nearly comparable with full-precision baselines, significantly outperforming state-of-the-art real-valued binary and ternary quantization methods. This work bridges the gap between the representational efficiency of complex-valued arithmetic and the practical utility of pre-trained models, paving a new way for efficient inference on commodity hardware.
- Abstract(参考訳): 大規模言語モデル(LLM)は人工知能に革命をもたらしたが、その膨大なメモリと計算要求は攻撃的な量子化を必要とし、1ビットの理論的限界に向けて表現をますます押し進めている。
iFairyのような複雑な値のLLMは、実値の表現よりも低ビットの表現に優れているが、それらはスクラッチからトレーニングを必要とし、事前訓練された実値の基盤モデルの広大なエコシステムの利用を妨げている。
ここでは、事前学習された実数値層を等価な広線形複素形式に変換する普遍的なフレームワークであるFairy2iを紹介し、既存のチェックポイントを再利用しながら極端に低ビット量子化を可能にする。
実数と広く線型写像の間の損失のない数学的等価性を証明することにより、標準変換器を複素領域に変換し、第4次ユニタリルートの高効率なコードブックを用いた位相認識量子化スキームを用いる。
さらに、再帰的残留量子化機構を導入し、量子化誤差を反復的に最小化し、効率的な乗算不要の累積による推論を可能にする。
また,Fairy2iはLLaMA-2 7Bの性能を2ビットの有効精度で復元し,精度の高いベースラインにほぼ匹敵するレベルに復元することを示した。
この研究は、複素数値算術の表現効率と事前訓練されたモデルの実用性とのギャップを埋め、コモディティ・ハードウェア上での効率的な推論の新しい方法を打ち立てる。
関連論文リスト
- R2Q: Towards Robust 2-Bit Large Language Models via Residual Refinement Quantization [20.861971198175674]
Residual Refinement Quantization (R2Q)は、2つのシーケンシャルな1ビットサブ量子化に分解する新しい2ビット量子化フレームワークである。
R2Qは、細粒度と粗粒度の両方で既存の2ビット量子化法より一貫して優れている。
論文 参考訳(メタデータ) (2025-11-21T12:39:44Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Highly Efficient and Effective LLMs with Multi-Boolean Architectures [5.346271362401715]
大型言語モデル(LLM)の複雑さを軽減するための有望な戦略として、重み二項化が登場した。
既存のアプローチは、単純だが重大なパフォーマンス損失を引き起こす訓練後二項化と、完全精度の潜伏重みに依存し、複雑さと制限効率を追加するトレーニング対応の方法に該当する。
本稿では,マルチカーネルBooleanパラメータでLLMを表現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T19:40:34Z) - TQ-DiT: Efficient Time-Aware Quantization for Diffusion Transformers [3.389132862174821]
モデルの量子化は、より低い精度で重みとアクティベーション値を表す。
時間群量子化(TGQ)は、アクティベーションの時間的変動に起因する量子化誤差を低減するために提案される。
提案アルゴリズムは,W8A8でFIDが0.29増加し,元の完全精度モデルに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-02-06T13:14:52Z) - DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。
既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。
本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T09:04:30Z) - RepQuant: Towards Accurate Post-Training Quantization of Large
Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。
既存のPTQメソッドは、通常、非自明な性能損失を示す。
本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文 参考訳(メタデータ) (2024-02-08T12:35:41Z) - CBQ: Cross-Block Quantization for Large Language Models [66.82132832702895]
ポストトレーニング量子化(PTQ)は、超低コストで大規模言語モデル(LLM)を圧縮する上で重要な役割を果たしている。
LLMのためのクロスブロック再構成に基づくPTQ手法CBQを提案する。
CBQはリコンストラクションスキームを使用してクロスブロック依存関係を採用し、エラーの蓄積を最小限に抑えるために複数のブロックにまたがる長距離依存関係を確立する。
論文 参考訳(メタデータ) (2023-12-13T07:56:27Z) - GSB: Group Superposition Binarization for Vision Transformer with
Limited Training Samples [46.025105938192624]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて顕著に機能している。
ViTは通常、比較的限られた数のトレーニングサンプルで深刻なオーバーフィッティング問題に悩まされる。
本稿では,GSB(Group Superposition Binarization)と呼ばれる新しいモデルバイナライゼーション手法を提案する。
論文 参考訳(メタデータ) (2023-05-13T14:48:09Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。