論文の概要: DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization
- arxiv url: http://arxiv.org/abs/2511.04063v1
- Date: Thu, 06 Nov 2025 05:05:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.30586
- Title: DartQuant: Efficient Rotational Distribution Calibration for LLM Quantization
- Title(参考訳): DartQuant: LLM量子化のための効率的な回転分散キャリブレーション
- Authors: Yuantian Shao, Yuanteng Chen, Peisong Wang, Jianlin Yu, Jing Lin, Yiwu Yao, Zhihui Wei, Jian Cheng,
- Abstract要約: 量子化は、大規模モデルの推論を加速する上で重要な役割を果たす。
DartQuantは効率的な分布認識回転校正法である。
これは、1台の3090 GPU上で70Bモデルの回転キャリブレーションを成功させた最初のものである。
- 参考スコア(独自算出の注目度): 30.092264336180644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Quantization plays a crucial role in accelerating the inference of large-scale models, and rotational matrices have been shown to effectively improve quantization performance by smoothing outliers. However, end-to-end fine-tuning of rotational optimization algorithms incurs high computational costs and is prone to overfitting. To address this challenge, we propose an efficient distribution-aware rotational calibration method, DartQuant, which reduces the complexity of rotational optimization by constraining the distribution of the activations after rotation. This approach also effectively reduces reliance on task-specific losses, thereby mitigating the risk of overfitting. Additionally, we introduce the QR-Orth optimization scheme, which replaces expensive alternating optimization with a more efficient solution. In a variety of model quantization experiments, DartQuant demonstrates superior performance. Compared to existing methods, it achieves 47$\times$ acceleration and 10$\times$ memory savings for rotational optimization on a 70B model. Furthermore, it is the first to successfully complete rotational calibration for a 70B model on a single 3090 GPU, making quantization of large language models feasible in resource-constrained environments. Code is available at https://github.com/CAS-CLab/DartQuant.git.
- Abstract(参考訳): 量子化は、大規模モデルの推論を加速する上で重要な役割を担い、回転行列は、外れ値の平滑化によって量子化性能を効果的に向上することが示されている。
しかし、回転最適化アルゴリズムのエンドツーエンドの微調整は高い計算コストをもたらし、過度に適合する傾向にある。
この課題に対処するために,効率的な分布対応回転校正手法であるDartQuantを提案し,回転後の活性化の分布を制約することにより回転最適化の複雑さを低減する。
このアプローチはまた、タスク固有の損失への依存を効果的に減らし、過剰適合のリスクを軽減します。
さらに,QR-Orth最適化方式を導入し,高い交互最適化をより効率的なソリューションに置き換える。
さまざまなモデル量子化実験において、DartQuantは優れたパフォーマンスを示している。
既存の手法と比較して、70Bモデル上での回転最適化のために47$\times$Accelerationと10$\times$メモリセーブを実現している。
さらに、1台の3090 GPU上で70Bモデルの回転キャリブレーションを完了し、リソース制約のある環境で大きな言語モデルの量子化を実現した最初の例である。
コードはhttps://github.com/CAS-CLab/DartQuant.gitで入手できる。
関連論文リスト
- BASE-Q: Bias and Asymmetric Scaling Enhanced Rotational Quantization for Large Language Models [25.783531928577233]
BASE-Qは、偏差補正と非対称スケーリングを組み合わせて、丸め誤差やクリップ誤差を減らす、シンプルながら強力なアプローチである。
実験では、BASE-Qの有効性が示され、精度のギャップは、QuaRot、SpinQuant、OSTQuantと比較して50.5%、42.9%、29.2%縮小した。
論文 参考訳(メタデータ) (2025-05-26T14:22:21Z) - SPAP: Structured Pruning via Alternating Optimization and Penalty Methods [2.1388885579612804]
大規模言語モデル(LLM)は、しばしば計算とメモリの要求によって制約される。
最適化理論に基づくLLMのための新規かつ効率的な構造化プルーニングフレームワークであるSPAP(Structured Pruning via Alternating Optimization and Penalty Methods)を提案する。
我々の研究は、モデル性能を保ちながらLLMを刈り取るための実用的で最適化駆動のソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-06T09:47:53Z) - Optimal Stepsize for Diffusion Sampling [14.849487881523041]
拡散モデルは、優れた生成品質を達成するが、最適以下のステップの離散化による計算集約サンプリングに苦しむ。
本稿では,参照軌道から知識を抽出し,理論的に最適なスケジュールを抽出する動的プログラミングフレームワークであるOptimal Stepsize Distillationを提案する。
実験では、GenEvalで99.4%のパフォーマンスを維持しながら、10倍の高速化されたテキスト-画像生成を示す。
論文 参考訳(メタデータ) (2025-03-27T17:59:46Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Irrational Complex Rotations Empower Low-bit Optimizers [102.56966165088963]
本稿では,メモリ効率向上のための新しい状態圧縮アルゴリズム,すなわち$pi$-Quantを提案する。
パラメータのビット幅を3.32ビットに削減し,パラメータスケールの75%削減とGPUメモリ使用量の40%削減を実現している。
論文 参考訳(メタデータ) (2025-01-22T14:17:57Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。