Fugu-MT 論文翻訳(概要): Power-of-Two Quantization-Aware-Training (PoT-QAT) in Large Language Models (LLMs)

論文の概要: Power-of-Two Quantization-Aware-Training (PoT-QAT) in Large Language Models (LLMs)

arxiv url: http://arxiv.org/abs/2601.02298v1
Date: Mon, 05 Jan 2026 17:33:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-06 16:25:23.322895
Title: Power-of-Two Quantization-Aware-Training (PoT-QAT) in Large Language Models (LLMs)
Title（参考訳）: 大規模言語モデル(LLM)における2つの量子化-認識-学習(PoT-QAT)
Authors: Mahmoud Elgenedy,
Abstract要約: 数値を2つのパワー・オブ・ツー(PoT)に制限する特殊量子化法を用いて圧縮重みについて検討する。さらに重要なのは、コストのかかる乗算を低コストのビットシフトに置き換えることで、処理能力を大幅に削減することです。また, GPT-2 124Mでは, 66%, BERT-Score損失が1%であった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In Large Language Models (LLMs), the number of parameters has grown exponentially in the past few years, e.g., from 1.5 billion parameters in GPT-2 to 175 billion in GPT-3 to possibly more than trillion in higher versions. This raises a significant challenge for implementation, especially for Edge devices. Unlike cloud computing, memory and processing power for Edge devices are very limited, which necessitates developing novel ideas to make such applications feasible. In this work, we investigate compressing weights with a special quantization that limits numbers to only power-of-two (PoT). This helps save a huge amount of memory as only exponents need to be stored, more importantly, it significantly reduces processing power by replacing costly multiplication with low cost bit shifting. To overcome performance loss due to this strict quantization, we investigate Quantization Aware Training (QAT) to enhance performance through additional training. Results on GPT-2 124M show a major enhancement for quantized PoT model after additional training, with a perplexity enhancement of 66% and BERT-Score loss to baseline GPT-2 of 1%. The memory saving is estimated to be 87.5% while the inference speed is expected to be 3-10x faster with PoT quantization versus full-precision.
Abstract（参考訳）: 大規模言語モデル(LLMs)では、GPT-2の15億のパラメータからGPT-3の1750億のパラメータまで、ここ数年で指数関数の数が指数関数的に増加した。これにより、特にEdgeデバイスにおいて、実装上の大きな課題が提起される。クラウドコンピューティングとは異なり、エッジデバイスのメモリと処理能力は非常に限られており、そのようなアプリケーションを実現するために新しいアイデアを開発する必要がある。本研究では, 数値を2乗のパワー(PoT)に制限する特殊量子化法を用いて, 圧縮重みについて検討する。さらに重要なのは、コストのかかる乗算を低コストのビットシフトに置き換えることで、処理能力を大幅に削減することです。この厳密な量子化による性能低下を克服するため,QAT(Quantization Aware Training)を検証し,追加トレーニングによる性能向上を図る。また, GPT-2 124Mでは, 66%, BERT-Score損失が1%であった。メモリの節約は87.5%と見積もられ、推論速度はPoT量子化と完全精度で3.10倍速くなると予測されている。

関連論文リスト

ELUTQ: Efficient LUT-Aware Quantization for Deploying Large Language Models on Edge Devices [3.465218658690795]
CPUベースのエッジデバイス上の大規模言語モデル(LLM)は、デバイス上のインテリジェンスの実現とAIアクセシビリティの拡大に不可欠である。我々は,新しい量子化形式である階層線形量子化(HLQ)を導入した効率的な量子化フレームワークELUTQを提案する。 HLQは計算コストを増大させることなく、重量の統計特性をよりよく捉える。 LLaMA3-8Bの場合、HLQは3ビットで約8%、2ビット精度で約85%のパープレキシティを減少させる。
論文参考訳（メタデータ） (2025-10-22T11:20:47Z)
MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文参考訳（メタデータ） (2025-10-13T03:12:46Z)
End-to-End On-Device Quantization-Aware Training for LLMs at Inference Cost [53.25965863436039]
量子化対応トレーニング(QAT)は、より原則化されたソリューションを提供するが、バックプロパゲーションに依存しているため、メモリコストは禁じられている。重み付けとアクティベーション量子化の両方をサポートするゼロオーダー最適化ベースのQATフレームワークであるZeroQATを提案する。実験の結果、ZeroQATはPTQとQATのベースラインを一貫して上回り、メモリは大幅に削減された。
論文参考訳（メタデータ） (2025-08-21T01:18:27Z)
PoTPTQ: A Two-step Power-of-Two Post-training for LLMs [27.141872509108122]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示している。パワーオブツー(PoT)量子化は、この困難に対処するための一般的なツールである。本稿では,LLM重み付けのための新しいPOT量子化フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-16T06:44:14Z)
Power-of-Two (PoT) Weights in Large Language Models (LLMs) [0.0]
モデルパラメータの数はここ数年で指数関数的に増加しており、例えば、GPT2の15億からGPT3の1750億までである。これにより、特にメモリと処理能力が非常に制限されたエッジデバイスにおいて、実装上の大きな課題が提起される。
論文参考訳（メタデータ） (2025-05-31T00:01:25Z)
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文参考訳（メタデータ） (2025-04-10T02:19:03Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。 GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文参考訳（メタデータ） (2024-07-03T08:08:01Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。