論文の概要: DiscQuant: A Quantization Method for Neural Networks Inspired by Discrepancy Theory
- arxiv url: http://arxiv.org/abs/2501.06417v1
- Date: Sat, 11 Jan 2025 03:14:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:50.111198
- Title: DiscQuant: A Quantization Method for Neural Networks Inspired by Discrepancy Theory
- Title(参考訳): DiscQuant: 離散性理論に着想を得たニューラルネットワークの量子化法
- Authors: Jerry Chee, Arturs Backurs, Rainie Heck, Li Zhang, Janardhan Kulkarni, Thomas Rothvoss, Sivakanth Gopi,
- Abstract要約: 任意の量子化格子を最適に与えられたラウンドリングの問題について検討する。
データに依存した方法で丸めれば、量子化されたモデルの品質を大幅に向上させることができる。
- 参考スコア(独自算出の注目度): 24.675221374799367
- License:
- Abstract: Quantizing the weights of a neural network has two steps: (1) Finding a good low bit-complexity representation for weights (which we call the quantization grid) and (2) Rounding the original weights to values in the quantization grid. In this paper, we study the problem of rounding optimally given any quantization grid. The simplest and most commonly used way to round is Round-to-Nearest (RTN). By rounding in a data-dependent way instead, one can improve the quality of the quantized model significantly. We study the rounding problem from the lens of \emph{discrepancy theory}, which studies how well we can round a continuous solution to a discrete solution without affecting solution quality too much. We prove that given $m=\mathrm{poly}(1/\epsilon)$ samples from the data distribution, we can round all but $O(m)$ model weights such that the expected approximation error of the quantized model on the true data distribution is $\le \epsilon$ as long as the space of gradients of the original model is approximately low rank (which we empirically validate). Our proof, which is algorithmic, inspired a simple and practical rounding algorithm called \emph{DiscQuant}. In our experiments, we demonstrate that DiscQuant significantly improves over the prior state-of-the-art rounding method called GPTQ and the baseline RTN over a range of benchmarks on Phi3mini-3.8B and Llama3.1-8B. For example, rounding Phi3mini-3.8B to a fixed quantization grid with 3.25 bits per parameter using DiscQuant gets 64\% accuracy on the GSM8k dataset, whereas GPTQ achieves 54\% and RTN achieves 31\% (the original model achieves 84\%). We make our code available at https://github.com/jerry-chee/DiscQuant.
- Abstract(参考訳): ニューラルネットワークの重みの量子化には、2つのステップがある: 1) 重み(量子化グリッドと呼ぶ)の良好な低ビット複雑度表現を見つけることと、(2) 元の重みを量子化グリッドの値に丸めること。
本稿では,任意の量子化格子を最適に与えられたラウンドリング問題について検討する。
最も単純なラウンド・ツー・ナエスト(RTN)はラウンド・トゥ・ナエスト(RTN)である。
代わりにデータ依存の方法で丸めれば、量子化されたモデルの品質を大幅に向上させることができる。
本稿では, 離散解に対する連続解の円周性について, 解の質に悪影響を及ぼすことなくよく研究する, 円周性理論のレンズを用いて, 円周問題について検討する。
データ分布から$m=\mathrm{poly}(1/\epsilon)$サンプルを与えられた場合、真のデータ分布上の量子化モデルの予測近似誤差が$\le \epsilon$で、元のモデルの勾配の空間がほぼ低ランクである限り(経験的に検証できる)、すべてのO(m)$モデルウェイトを丸めることができる。
我々の証明はアルゴリズムであり、簡単なラウンドリングアルゴリズムである \emph{DiscQuant} に影響を与えた。
実験では,Phi3mini-3.8B と Llama3.1-8B のベンチマークを用いて,GPTQ とベースラインRTN という,従来の最先端のラウンドリング手法よりも大幅に改善されていることを示した。
例えば、Phi3mini-3.8Bをパラメータあたり3.25ビットの固定量子化グリッドに丸めると、GSM8kデータセット上で64\%の精度が得られ、GPTQは54\%、RTNは31\%となる(元のモデルは84\%)。
コードはhttps://github.com/jerry-chee/DiscQuant.comで公開しています。
関連論文リスト
- Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。
PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。
比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文 参考訳(メタデータ) (2024-10-22T11:57:32Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。
提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。
推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z) - Pruning Ternary Quantization [32.32812780843498]
推測時間、モデルサイズ、精度は、ディープモデル圧縮の3つの重要な要素である。
単純で効果的で対称な三項量子化法であるプルーニング三項量子化(PTQ)を提案する。
本手法は,異なるネットワーク構造を持つ画像分類,物体検出・分離タスクについて検証する。
論文 参考訳(メタデータ) (2021-07-23T02:18:00Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - Bandit Samplers for Training Graph Neural Networks [63.17765191700203]
グラフ畳み込みネットワーク(GCN)の訓練を高速化するために, ばらつきを低減したサンプリングアルゴリズムが提案されている。
これらのサンプリングアルゴリズムは、グラフ注意ネットワーク(GAT)のような固定重みよりも学習重量を含む、より一般的なグラフニューラルネットワーク(GNN)には適用できない。
論文 参考訳(メタデータ) (2020-06-10T12:48:37Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z) - Up or Down? Adaptive Rounding for Post-Training Quantization [27.376486198998027]
学習後量子化のためのより優れた重み付き機構であるAdaRoundを提案する。
AdaRoundは高速で、ネットワークの微調整を必要としない。
論文 参考訳(メタデータ) (2020-04-22T13:44:28Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - PUGeo-Net: A Geometry-centric Network for 3D Point Cloud Upsampling [103.09504572409449]
PUGeo-Netと呼ばれる新しいディープニューラルネットワークを用いた一様高密度点雲を生成する手法を提案する。
その幾何学中心の性質のおかげで、PUGeo-Netはシャープな特徴を持つCADモデルとリッチな幾何学的詳細を持つスキャンされたモデルの両方でうまく機能する。
論文 参考訳(メタデータ) (2020-02-24T14:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。