論文の概要: Power-of-Two (PoT) Weights in Large Language Models (LLMs)
- arxiv url: http://arxiv.org/abs/2506.00315v1
- Date: Sat, 31 May 2025 00:01:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.180092
- Title: Power-of-Two (PoT) Weights in Large Language Models (LLMs)
- Title(参考訳): 大規模言語モデル(LLM)におけるパワー・オブ・ツー(PoT)ウェイト
- Authors: Mahmoud Elgenedy,
- Abstract要約: モデルパラメータの数はここ数年で指数関数的に増加しており、例えば、GPT2の15億からGPT3の1750億までである。
これにより、特にメモリと処理能力が非常に制限されたエッジデバイスにおいて、実装上の大きな課題が提起される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Complexity of Neural Networks is increasing rapidly due to the massive increase in model parameters. Specifically, in Large Language Models (LLMs), the number of model parameters has grown exponentially in the past few years, for example, from 1.5 billion parameters in GPT2 to 175 billion in GPT3. This raises a significant challenge for implementation, especially for Edge devices where memory and processing power are very limited. In this work, we investigate reducing LLM complexity with special type of quantization, power of two (PoT), for linear layers weights and transformer tables. PoT not only provides memory reduction but more importantly provides significant computational reduction through converting multiplication to bit shifting. We obtained preliminary results of PoT quantization on Nano-GPT implementation using Shakespeare dataset. We then extended results to 124-M GPT-2 model. The PoT quantization results are shown to be very promising with cross entropy loss degradation $\approx$[1.3-0.88] with number of bits range [4-6] to represent power levels.
- Abstract(参考訳): モデルパラメータの大幅な増加により,ニューラルネットワークの複雑さは急速に増大している。
特に、Large Language Models (LLMs)では、ここ数年でモデルパラメータの数が指数関数的に増加しており、例えば、GPT2の15億からGPT3の1750億までである。
これにより、特にメモリと処理能力が非常に制限されたエッジデバイスにおいて、実装上の大きな課題が提起される。
本研究では,線形層重みと変圧器テーブルの特殊型量子化,2つのPoTのパワーによるLLM複雑性の低減について検討する。
PoTはメモリ削減を提供するだけでなく、乗算をビットシフトに変換することで計算量を大幅に削減する。
シェークスピアデータセットを用いたナノGPT実装におけるPoT量子化の予備結果を得た。
結果を124-M GPT-2モデルに拡張した。
PoT量子化結果は、パワーレベルを表すビット数 [4-6] のクロスエントロピー損失分解$\approx$[1.3-0.88] で非常に有望であることが示されている。
関連論文リスト
- GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。
重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。
GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文 参考訳(メタデータ) (2024-07-03T08:08:01Z) - HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。
DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。
4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文 参考訳(メタデータ) (2024-05-30T06:56:11Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - GPTQ: Accurate Post-Training Quantization for Generative Pre-trained
Transformers [34.91478831993398]
GPTQは、近似二階情報に基づく新しい一発量量子化法である。
約4GPU時間で、1750億のパラメータを持つGPTモデルを定量化できる。
提案手法は,従来提案したワンショット量子化法と比較して圧縮ゲインを2倍以上に向上させる。
論文 参考訳(メタデータ) (2022-10-31T13:42:40Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - PAMS: Quantized Super-Resolution via Parameterized Max Scale [84.55675222525608]
深部畳み込みニューラルネットワーク(DCNN)は超解像処理(SR)において優位な性能を示した
本稿では,PAMS(Parameterized Max Scale)と呼ばれる新しい量子化手法を提案する。
実験により,提案手法はEDSRやRDNなどの既存のSRモデルを適切に圧縮・高速化できることが示された。
論文 参考訳(メタデータ) (2020-11-09T06:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。