論文の概要: PTQTP: Post-Training Quantization to Trit-Planes for Large Language Models
- arxiv url: http://arxiv.org/abs/2509.16989v1
- Date: Sun, 21 Sep 2025 09:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.068555
- Title: PTQTP: Post-Training Quantization to Trit-Planes for Large Language Models
- Title(参考訳): PTQTP:大規模言語モデルのためのTrit-Planへの後処理量子化
- Authors: He Xiao, Runming Yang, Qingyao Yang, Wendong Xu, Zheng Li, Yupeng Su, Zhengwu Liu, Hongxia Yang, Ngai Wong,
- Abstract要約: 大規模言語モデル(LLM)から極低ビット幅への後学習量子化は依然として困難である。
既存のUltra-low-bit PTQ法はバイナリ近似や複雑な補償機構に依存している。
重量行列を構造化三重項 -1, 0, 1 個の三重項平面に分解する最初の三重項 PTQ フレームワークである Trit-Planes (PTQTP) について紹介する。
- 参考スコア(独自算出の注目度): 30.45593555199413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) of large language models (LLMs) to extremely low bit-widths remains challenging due to the fundamental trade-off between computational efficiency and model expressiveness. While existing ultra-low-bit PTQ methods rely on binary approximations or complex compensation mechanisms, they suffer from either limited representational capacity or computational overhead that undermines their efficiency gains. We introduce PTQ to Trit-Planes (PTQTP), the first ternary-weight PTQ framework that decomposes weight matrices into structured ternary {-1, 0, 1} trit-planes using 2x1.58-bit representation. PTQTP achieves multiplication-free inference, identical to 1-bit quantization, while maintaining superior expressiveness through its novel structured decomposition. Our approach provides: (1) a theoretically grounded progressive approximation algorithm ensuring global weight consistency; (2) model-agnostic deployment across diverse modern LLMs without architectural modifications; and (3) uniform ternary operations that eliminate the need for mixed-precision or compensation schemes. Comprehensive experiments across LLaMA3.x and Qwen3 model families (0.6B-70B parameters) demonstrate that PTQTP significantly outperforms existing low-bit PTQ methods, achieving 82.4% mathematical reasoning retention versus 0% for competing approaches. PTQTP approaches and sometimes surpasses 1.58-bit quantization-aware training performance while requiring only single-hour quantization compared to 10-14 GPU days for training-based methods. These results establish PTQTP as a practical solution for efficient LLM deployment in resource-constrained environments.
- Abstract(参考訳): 大規模言語モデル(LLM)から極低ビット幅への後学習量子化(PTQ)は、計算効率とモデル表現性の基本的なトレードオフのため、依然として困難である。
既存の超低ビットPTQ法はバイナリ近似や複雑な補償機構に依存しているが、表現能力の制限や計算オーバーヘッドに悩まされており、効率を損なう。
2x1.58-bit表現を用いて、重み行列を構造化された三元系 {-1, 0, 1} 三元平面に分解する最初の三元系PTQフレームワークであるTrit-Planes (PTQTP) を紹介した。
PTQTPは1ビット量子化と同一の乗算自由推論を実現し、その新しい構造化分解により優れた表現性を保っている。
提案手法は,(1)大域的な重量整合性を確保するための理論的基礎となる漸進的近似アルゴリズム,(2)アーキテクチャ変更を伴わない多種多様な近代LLMへのモデル非依存的展開,(3)混合精度や補償スキームの必要性を排除した一様第三次演算を提案する。
LLaMA3.x と Qwen3 モデルファミリ (0.6B-70B パラメータ) の総合的な実験により、PTQTP が既存の低ビット PTQ 法を著しく上回り、82.4% の数学的推論保持を達成した。
PTQTPは1.58ビットの量子化を意識したトレーニングパフォーマンスに近づき、トレーニングベースの手法では10-14GPU日よりも1時間で量子化できる。
これらの結果から,PTQTP は資源制約環境における LLM の効率的な展開のための実用的なソリューションとして確立された。
関連論文リスト
- ZeroQAT: Your Quantization-aware Training but Efficient [53.25965863436039]
量子化は、大規模言語モデル(LLM)のデプロイメントコストを削減する効果的な手法である。
既存の低ビットPTQ法は, 局所再構成目標と下流性能の相違による累積誤差の伝搬と誤調整が生じるため, 精度劣化に悩まされる。
我々は,ゼロオーダー最適化に基づくQATフレームワークZeroQATを提案する。
論文 参考訳(メタデータ) (2025-08-21T01:18:27Z) - PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks [9.463776523295303]
ポストトレーニング量子化(PTQ)と量子アウェアトレーニング(QAT)は、2つの主流モデル量子化アプローチを表す。
本稿では,3次元知覚ネットワークの効率的な展開のための新しいハイブリッド量子化アルゴリズムPTQATを提案する。
論文 参考訳(メタデータ) (2025-08-14T11:55:21Z) - GPLQ: A General, Practical, and Lightning QAT Method for Vision Transformers [11.452135395287119]
ビジョントランスフォーマー(ViT)はコンピュータビジョンに必須だが、計算集約性もある。
モデル量子化は、この難しさを軽減することを目的としているが、既存のPTQ(Post-Training Quantization)法とQAT(Quantization-Aware Training)法は、大きな制限を呈している。
本稿では,効率的なVT量子化のための新しいフレームワークであるGPLQ(General, Practical, and Quantization)を紹介する。
論文 参考訳(メタデータ) (2025-06-13T13:45:17Z) - Post-Training Quantization for Video Matting [20.558324038808664]
ビデオマッティングは、映画制作やバーチャルリアリティーといった応用に不可欠である。
トレーニング後の量子化(PTQ)は、ビデオマッティングの初期段階にある。
本稿では,ビデオマッチングモデルに特化して設計された,新規で汎用的なPTQフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-12T15:57:14Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。
既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。
本稿では LLM PTQ のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-02-18T07:35:35Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - TEQ: Trainable Equivalent Transformation for Quantization of LLMs [1.0376648762140632]
TEQは、低精度量子化を生かしながら、モデル出力のFP32精度を保存する訓練可能な等価変換である。
トレーニングプロセスは軽量で、1Kステップしか必要とせず、オリジナルのモデルのトレーニング可能なパラメータの0.1%未満である。
論文 参考訳(メタデータ) (2023-10-17T02:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。