論文の概要: WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
- arxiv url: http://arxiv.org/abs/2512.00956v1
- Date: Sun, 30 Nov 2025 16:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.51684
- Title: WUSH: Near-Optimal Adaptive Transforms for LLM Quantization
- Title(参考訳): WUSH: LLM量子化のための準最適適応変換
- Authors: Jiale Chen, Vage Egiazarian, Torsten Hoefler, Dan Alistarh,
- Abstract要約: 低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。
いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。
結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
- 参考スコア(独自算出の注目度): 52.77441224845925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Quantization to low bitwidth is a standard approach for deploying large language models, however, a few extreme weights and activations stretch the dynamic range and reduce the effective resolution of the quantizer. A common mitigation approach is to apply some fixed orthogonal transforms, such as Hadamard matrices, before quantization, which typically reduces the dynamic range. Yet, these transforms ignore the statistics of the data, and their optimality is currently not understood. In this work, we derive, for the first time, closed-form optimal linear blockwise transforms for joint weight-activation quantization using standard data-free quantizers for common numerical formats. Specifically, we provide derivations of the optimal adaptive (data-aware) transforms for round-to-nearest (RTN), AbsMax-scaled block quantizers for both integer and floating-point formats. The resulting construction, which we call WUSH, combines a Hadamard backbone with a data-dependent component based on second-order moments, yielding a non-orthogonal transform that is provably optimal under mild assumptions and remains structured for efficient implementation. Preliminary experimental results show that our approach consistently improves upon the Hadamard transform for common formats.
- Abstract(参考訳): 低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチであるが、いくつかの極端な重みとアクティベーションは、動的範囲を延ばし、量子化器の有効分解能を低下させる。
一般的な緩和法は、量子化の前にアダマール行列のようないくつかの固定直交変換を適用することである。
しかし、これらの変換はデータの統計を無視し、その最適性は現在理解されていない。
本研究では, 標準データ自由量化器を用いた共同重み付け量子化のための閉形式最適線形ブロックワイド変換を, 一般の数値形式に対して初めて導出した。
具体的には、ラウンド・トゥ・アネレスト(RTN)の最適適応(データ認識)変換と、整数と浮動小数点の両フォーマットのAbsMaxスケールブロック量子化器の導出を行う。
結果として得られた構成は、WUSHと呼ばれ、アダマールのバックボーンと2次モーメントに基づくデータ依存コンポーネントを結合し、軽度な仮定で証明可能な非直交変換を生成し、効率的な実装のために構成されている。
予備的な実験結果から,本手法は共通フォーマットのアダマール変換により一貫した改善が得られた。
関連論文リスト
- Adaptive Layer-Wise Transformations for Post-Training Quantization of Large Language Models [47.54958360970588]
大規模言語モデルは、デプロイメントにかなりの計算資源を必要とする。
効果的な量子化の主な障害は、活性化と重みの体系的な外れ値にある。
本稿では,層ごとの最適変換を体系的に決定する適応変換選択フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-21T22:01:58Z) - Neural Optimal Transport Meets Multivariate Conformal Prediction [58.43397908730771]
条件付きベクトル回帰(CVQR)のためのフレームワークを提案する。
CVQRは、ニューラルネットワークの最適輸送と量子化された最適化を組み合わせて、予測に適用する。
論文 参考訳(メタデータ) (2025-09-29T19:50:19Z) - Numerical Optimization for Tensor Disentanglement [7.88541926763416]
本稿では,ネットワーク内のゲージ自由度を利用して結合次元を小さくする変換を同定するテンソルディエンタングリングについて論じる。
我々は、この問題を、1つのテンソルの指標に作用する直交行列に対する最適化問題として定式化し、その行列化形式のランクを最小化する。
しばしば未知の最適ランクを求めるために,二元探索戦略を導入する。
論文 参考訳(メタデータ) (2025-08-26T20:17:48Z) - HadaNorm: Diffusion Transformer Quantization through Mean-Centered Transformations [17.975720202894905]
ポストトレーニング量子化(PTQ)は,行列演算のビット幅を削減することで,有望な解を提供する。
本稿では,チャネル活性化の正規化とアダマール変換の適用により,既存手法を拡張した新しい線形変換法HadaNormを提案する。
我々は,HadaNormが変圧器ブロックの様々な構成成分の量子化誤差を一貫して低減し,最先端の手法より優れていることを示した。
論文 参考訳(メタデータ) (2025-06-11T16:54:34Z) - Variationally optimizing infinite projected entangled-pair states at large bond dimensions: A split corner transfer matrix renormalization group approach [0.2796197251957244]
本稿では,PEPS層を分離し,新しい環境テンソルを活用することで,精度を保ちながら計算複雑性を低減できる「スプリットCTMRG」アルゴリズムを提案する。
量子格子モデルのベンチマークでは、変動エネルギー最適化のためのかなりのスピードアップが示され、この手法は大規模PEPSシミュレーションに有用である。
論文 参考訳(メタデータ) (2025-02-14T16:59:33Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Variable-size Symmetry-based Graph Fourier Transforms for image compression [65.7352685872625]
可変サイズのグラフフーリエ変換を符号化フレームワークに導入する。
提案アルゴリズムは,ノード間の特定の対称接続を追加することにより,グリッド上の対称グラフを生成する。
実験により、SBGFTは、明示的な多重変換選択に統合された一次変換よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-24T13:00:44Z) - Exact Backpropagation in Binary Weighted Networks with Group Weight
Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。
重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文 参考訳(メタデータ) (2021-07-03T10:29:34Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。