Fugu-MT 論文翻訳(概要): Post Training Quantization of Large Language Models with Microscaling Formats

論文の概要: Post Training Quantization of Large Language Models with Microscaling Formats

arxiv url: http://arxiv.org/abs/2405.07135v2
Date: Fri, 11 Oct 2024 19:34:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.345358
Title: Post Training Quantization of Large Language Models with Microscaling Formats
Title（参考訳）: マイクロスケーリングフォーマットを用いた大規模言語モデルのポストトレーニング量子化
Authors: Sayeh Sharify, Utkarsh Saxena, Zifei Xu, Wanzin Yazar, Ilya Soloveychik, Xin Wang,
Abstract要約: SmoothQuant, AWQ, GPTQの3つの有名なポストトレーニング手法の併用について検討した。異なるPTQ手法を組み合わせることで、4ビットの重みと8ビットのアクティベーションにモデルを量子化できることを示す。
参考スコア（独自算出の注目度）: 4.736634198230005
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) have distinguished themselves with outstanding performance in complex language modeling tasks, yet they come with significant computational and storage challenges. This paper explores the potential of quantization to mitigate these challenges. We systematically study the combined application of three well-known post-training techniques, SmoothQuant, AWQ, and GPTQ, and provide a comprehensive analysis of their interactions and implications for advancing LLM quantization. We enhance the versatility of these methods by enabling quantization to microscaling (MX) formats, extending the applicability of these PTQ algorithms beyond their original fixed-point format targets. We show that combining different PTQ methods enables us to quantize models to 4-bit weights and 8-bit activations using the MXINT format with negligible accuracy loss compared to the uncompressed baseline.
Abstract（参考訳）: LLM(Large Language Models)は、複雑な言語モデリングタスクにおいて卓越した性能を持つが、計算と記憶に重大な課題がある。本稿では,これらの課題を緩和する量子化の可能性について検討する。 SmoothQuant, AWQ, GPTQの3つの有名なポストトレーニング技術の組み合わせを体系的に研究し, それらの相互作用とLLM量子化の進展に関する包括的分析を行った。マイクロスケーリング(MX)フォーマットへの量子化を可能にし、PTQアルゴリズムの適用性を元の固定点フォーマットのターゲットを超えて拡張することで、これらの手法の汎用性を高める。異なるPTQ手法を組み合わせることで、4ビットの重みと8ビットのアクティベーションにモデルを量子化できることを示す。

関連論文リスト

Benchmarking Post-Training Quantization of Large Language Models under Microscaling Floating Point Formats [23.57507112139113]
マイクロスケーリング浮動小数点 (MXFP) は,大規模言語モデル (LLM) のための有望な低精度フォーマットとして登場した。様々なポストトレーニング量子化(PTQ)アルゴリズムが提案されているが、主に整数量子化に焦点を当てている。この研究は、MXFPフォーマットでPTQを体系的に調査し、7つのPTQアルゴリズム、15の評価ベンチマーク、3つのLLMファミリを含む。
論文参考訳（メタデータ） (2026-01-14T15:16:55Z)
Quantization Meets dLLMs: A Systematic Study of Post-training Quantization for Diffusion LLMs [78.09559830840595]
本稿では拡散に基づく言語モデルの定量化に関する最初の体系的研究について述べる。異常に大きなアクティベーション値によって特徴付けられるアクティベーションアウトリーチの存在を同定する。我々は最先端のPTQ手法を実装し、包括的な評価を行う。
論文参考訳（メタデータ） (2025-08-20T17:59:51Z)
DLLMQuant: Quantizing Diffusion-based Large Language Models [15.318057331535982]
拡散に基づく大規模言語モデル(Ms)は、非自己回帰的なテキスト生成を約束している。ポストトレーニング量子化(PTQ)は、アロケーションMに適用した場合、精度が著しく低下し、性能が低下する。 3つの新しい技法を取り入れたPTQフレームワークであるMQuantを提案する。
論文参考訳（メタデータ） (2025-08-14T09:30:17Z)
Can Post-Training Quantization Benefit from an Additional QLoRA Integration? [2.711943011160125]
大規模言語モデル(LLM)は自然言語処理を変革しているが、現実のデプロイメントには大きな課題がある。本研究では,これらの問題に対処するために,4ビットポストトレーニング量子化(PTQ)とQLoRAの統合について検討する。
論文参考訳（メタデータ） (2025-02-14T14:56:19Z)
Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文参考訳（メタデータ） (2024-11-26T15:35:44Z)
LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文参考訳（メタデータ） (2024-05-09T11:49:05Z)
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文参考訳（メタデータ） (2024-04-04T17:25:30Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization [12.655230451207956]
本稿では,Large Language Models(LLMs)における後学習量子化(PTQ)に焦点を当てる。本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)の2つの革新的な手法を提案する。我々の技術はタスクの精度を大幅に向上させ、完全精度モデルに匹敵するレベルまで向上することを示した。
論文参考訳（メタデータ） (2023-11-09T06:19:51Z)
Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。 MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文参考訳（メタデータ） (2023-09-13T04:06:47Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文参考訳（メタデータ） (2023-08-16T23:57:41Z)
Self-Distilled Quantization: Achieving High Compression Rates in Transformer-Based Language Models [6.936564049727831]
本稿では,蓄積量子化誤差を最小化し,ベースラインを上回り,自己蒸留量子化法(SDQ)を提案する。 SDQを多言語モデル XLM-R-Base とInfoXLM-Base に適用し、両モデルが32ビット浮動小数点重みから8ビット整数重みに還元可能であることを示す。
論文参考訳（メタデータ） (2023-07-12T07:38:24Z)
PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。 PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文参考訳（メタデータ） (2023-05-30T08:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。