Fugu-MT 論文翻訳(概要): Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models

論文の概要: Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models

arxiv url: http://arxiv.org/abs/2501.18154v1
Date: Thu, 30 Jan 2025 05:39:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.058784
Title: Mixed-Precision Graph Neural Quantization for Low Bit Large Language Models
Title（参考訳）: 低ビット大言語モデルのための混合精度グラフニューラル量子化
Authors: Wanlong Liu, Yichen Xiao, Dingyi Zeng, Hongyang Zhao, Wenyu Chen, Malu Zhang,
Abstract要約: トレーニング後の量子化(PTQ)は、リソース制限設定内に大規模な言語モデルをデプロイする上で重要な要素である。本稿では,グラフニューラルネットワーク (GNN) モジュールを用いて重み間の依存関係をキャプチャする混合精度グラフニューラルPTQ (MG-PTQ) 手法を提案する。本手法は, 目標重み間の依存性をより効果的に把握し, 重みの重要性をより正確に評価する。
参考スコア（独自算出の注目度）: 13.709080134204326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Post-Training Quantization (PTQ) is pivotal for deploying large language models (LLMs) within resource-limited settings by significantly reducing resource demands. However, existing PTQ strategies underperform at low bit levels < 3 bits due to the significant difference between the quantized and original weights. To enhance the quantization performance at low bit widths, we introduce a Mixed-precision Graph Neural PTQ (MG-PTQ) approach, employing a graph neural network (GNN) module to capture dependencies among weights and adaptively assign quantization bit-widths. Through the information propagation of the GNN module, our method more effectively captures dependencies among target weights, leading to a more accurate assessment of weight importance and optimized allocation of quantization strategies. Extensive experiments on the WikiText2 and C4 datasets demonstrate that our MG-PTQ method outperforms previous state-of-the-art PTQ method GPTQ, setting new benchmarks for quantization performance under low-bit conditions.
Abstract（参考訳）: トレーニング後の量子化(PTQ)は、リソースの要求を大幅に低減することにより、リソース制限された設定に大規模言語モデル(LLM)をデプロイする上で重要である。しかし、既存のPTQ戦略は、量子化と元の重みの差が大きいため、低ビットレベル < 3 ビットで性能が低い。低ビット幅での量子化性能を高めるために、重み間の依存関係を捕捉し、量子化ビット幅を適応的に割り当てるためにグラフニューラルネットワーク(GNN)モジュールを用いて、MG-PTQ(Mixed-precision Graph Neural PTQ)アプローチを導入する。 GNNモジュールの情報伝達により,本手法は目標重み間の依存性をより効果的に把握し,重み付けの重要度をより正確に評価し,量子化戦略を最適化する。 WikiText2 と C4 データセットの大規模な実験により、MG-PTQ 法は従来の PTQ 法 GPTQ よりも優れており、低ビット条件下での量子化性能の新たなベンチマークが設定されている。

関連論文リスト

Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文参考訳（メタデータ） (2025-10-19T12:16:40Z)
FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文参考訳（メタデータ） (2025-06-13T07:57:38Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
Benchmarking Post-Training Quantization in LLMs: Comprehensive Taxonomy, Unified Evaluation, and Comparative Analysis [89.60263788590893]
後学習量子化(PTQ)技術は大規模言語モデル(LLM)圧縮に広く採用されている。既存のアルゴリズムは主にパフォーマンスに重点を置いており、モデルサイズ、パフォーマンス、量子化ビット幅間のトレードオフを見越している。本稿では LLM PTQ のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-02-18T07:35:35Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [63.89099994367657]
大規模言語モデル(LLM)は、複雑な言語タスクの解決における優れたパフォーマンスを示している。 LLMを低ビットにすることで、リソース制約のあるデバイス上で動作することが可能になり、しばしばパフォーマンスの低下につながる。低ビット重み量子化のための最初の量子化手法である勾配対応重み量子化(GWQ)を提案する。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。 QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。我々は、QT-DoGが様々なデータセット、アーキテクチャ、量子化アルゴリズムにまたがって一般化することを実証する。
論文参考訳（メタデータ） (2024-10-08T13:21:48Z)
PB-LLM: Partially Binarized Large Language Models [14.244537605866864]
本稿では,Large Language Models (LLMs) 圧縮のために,モデル重みを1ビットに圧縮するネットワークバイナライゼーションについて検討する。本稿では,LLMの言語的推論能力を維持しつつ,極端に低ビットの量子化を実現する手法として,PB-LLM(Partial-Binarized LLM)を提案する。
論文参考訳（メタデータ） (2023-09-29T14:35:27Z)
EPTQ: Enhanced Post-Training Quantization via Hessian-guided Network-wise Optimization [3.3998740964877463]
量子化は、メモリと計算リソースが限られているエッジデバイスにディープニューラルネットワークをデプロイするための重要な方法である。本稿では,ネットワークワイド量子化最適化プロセスを用いたEPTQ(Post-Training Quantization)の高速化手法を提案する。
論文参考訳（メタデータ） (2023-09-20T10:50:28Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文参考訳（メタデータ） (2023-08-08T21:38:02Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
Cluster-Promoting Quantization with Bit-Drop for Minimizing Network Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。 DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文参考訳（メタデータ） (2021-09-05T15:15:07Z)
Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文参考訳（メタデータ） (2020-02-18T12:31:34Z)
SQWA: Stochastic Quantized Weight Averaging for Improving the Generalization Capability of Low-Precision Deep Neural Networks [29.187848543158992]
我々は、新しい量子化ニューラルネットワーク最適化手法、量子化ウェイト平均化(SQWA)を提案する。提案手法には、浮動小数点モデルのトレーニング、重みの直接量子化、複数の低精度モデルのキャプチャ、キャプチャーモデルの平均化、低学習率の微調整が含まれる。 SQWAトレーニングにより、CIFAR-100およびImageNetデータセット上の2ビットQDNNの最先端結果を得た。
論文参考訳（メタデータ） (2020-02-02T07:02:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。