Fugu-MT 論文翻訳(概要): NF4 Isn't Information Theoretically Optimal (and that's Good)

論文の概要: NF4 Isn't Information Theoretically Optimal (and that's Good)

arxiv url: http://arxiv.org/abs/2306.06965v1
Date: Mon, 12 Jun 2023 08:52:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-13 15:18:30.250731
Title: NF4 Isn't Information Theoretically Optimal (and that's Good)
Title（参考訳）: nf4は理論上最適な情報ではありません
Authors: Davis Yoshida
Abstract要約: 量子化すべき値の分布はブロックサイズに依存するので、これはまったくそうではないことを私は示しています。私はこれらの洞察を応用して、Quantileベースの手法ではなく、期待されるL1再構成エラーを最小限に抑え、改善されたコードを導出しようと試みます。
参考スコア（独自算出の注目度）: 0.38073142980733
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This note shares some simple calculations and experiments related to absmax-based blockwise quantization, as used in Dettmers et al., 2023. Their proposed NF4 data type is said to be information theoretically optimal for representing normally distributed weights. I show that this is can't quite be the case, as the distribution of the values to be quantized depends on the block-size. I attempt to apply these insights to derive an improved code based on minimizing the expected L1 reconstruction error, rather than the quantile based method. This leads to improved performance for larger quantization block sizes, while both codes perform similarly at smaller block sizes.
Abstract（参考訳）: このノートは、dettmers et al., 2023で使われているabsmaxベースのブロックワイズ量子化に関するいくつかの単純な計算と実験を共有している。提案したNF4データ型は、通常分布する重みを表すのに理論的に最適であると言われている。量子化すべき値の分布はブロックサイズに依存するので、これはまったくそうではないことを私は示しています。私はこれらの洞察を応用して、Quantileベースの手法ではなく、期待されるL1再構成エラーを最小限に抑え、改善されたコードを導き出そうとします。これにより、より大きな量子化ブロックサイズのパフォーマンスが向上し、どちらのコードもより小さなブロックサイズで同じように動作する。

関連論文リスト

BAQ: Efficient Bit Allocation Quantization for Large Language Models [8.427223431012454]
学習後モデルの量子化は、大規模言語モデルのメモリと計算コストを削減するために広く採用されている手法である。既存の手法の多くは均一またはビット幅の割り当てに依存しており、量子化ノイズに対するウェイトの不均一な感度を考慮できない。本稿では,Hessianプロキシから得られた感度指標に基づいて,量子化ビット幅を割り当てる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-06T01:27:01Z)
Improving Block-Wise LLM Quantization by 4-bit Block-Wise Optimal Float (BOF4): Analysis and Variations [22.127873567034825]
大規模言語モデル(LLM)は、微調整と推論の両方で広範なメモリ容量を必要とする。既存の手法では、NF4やAF4といったブロックワイド量子化技術がネットワーク重みに適用されている。これらの量子化手法が最適以下の量子化誤差を引き起こすことを示す。
論文参考訳（メタデータ） (2025-05-10T14:00:15Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Quantize What Counts: Bit Allocation Insights Informed by Spectral Gaps in Keys and Values [57.54443445583921]
KV量子化法の拡張を目的とした2つの新しい定理を提供する。我々の最初の定理は、キー値ノルム格差(Key-Value Norm Disparity)と呼ばれ、鍵重み行列がよりリッチな情報を持っていることを述べる。第2の定理であるキー駆動量子化(Key-Driven Quantization)は、値上のキーの量子化精度の優先順位付けは、全体的な量子化性能に大きな改善をもたらすという仮説である。
論文参考訳（メタデータ） (2025-02-20T22:24:27Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。 3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文参考訳（メタデータ） (2025-02-04T18:59:26Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
Pyramid Vector Quantization for LLMs [8.779688608449902]
大規模言語モデルのためのピラミッドベクトル量子化(PVQ)。 PVQは1次元球面に点を投影することで球面上の固定整数格子を用いており、メモリに明示的なコードブックを必要とせずに効率的な符号化と復号を行うことができる。比較手法と比較した場合, 性能と重量当たりのビット, アクティベーション当たりのビット間でのパリト最適トレードオフにより, 最先端の量子化性能を実現する。
論文参考訳（メタデータ） (2024-10-22T11:57:32Z)
Scaling Laws For Mixed Quantization [14.27345780977423]
大規模言語モデル(LLM)の学習後の量子化は、推論のメモリと計算要求を減らすのに有効であることが証明されている。量子化比(Q_r$)と量子化ブロックサイズ(Q_b$)という2つの重要な指標を導入する。本稿では,学習後量子化(PTQ)に関する統一的なスケーリング法則を提案する。
論文参考訳（メタデータ） (2024-10-09T09:45:01Z)
GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。 GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文参考訳（メタデータ） (2024-07-03T08:08:01Z)
FlattenQuant: Breaking Through the Inference Compute-bound for Large Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文参考訳（メタデータ） (2024-02-28T02:00:34Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。量子化空間全体にわたって新しい量子化重みを学習する方法を示す。本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文参考訳（メタデータ） (2023-08-10T14:19:58Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文参考訳（メタデータ） (2022-12-19T18:48:33Z)
Block Format Error Bounds and Optimal Block Size Selection [7.056118133284956]
ここで最も期待され、急速に進歩しているフロンティアの1つは、新しいデータフォーマットの作成である。本稿では, 数値演算を用いた内部積の動的範囲, 数値的精度, 効率的なハードウェア実装の組み合わせにより, ブロック浮動小数点数値形式に焦点をあてる。
論文参考訳（メタデータ） (2022-10-11T14:15:09Z)
Minimax Optimal Quantization of Linear Models: Information-Theoretic Limits and Efficient Algorithms [59.724977092582535]
測定から学習した線形モデルの定量化の問題を考える。この設定の下では、ミニマックスリスクに対する情報理論の下限を導出する。本稿では,2層ReLUニューラルネットワークに対して,提案手法と上界を拡張可能であることを示す。
論文参考訳（メタデータ） (2022-02-23T02:39:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。