Fugu-MT 論文翻訳(概要): QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

論文の概要: QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models

arxiv url: http://arxiv.org/abs/2310.16795v1
Date: Wed, 25 Oct 2023 17:24:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 13:22:14.982164
Title: QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models
Title（参考訳）: QMoE:トリリオンパラメータモデルの実用的サブ-1ビット圧縮
Authors: Elias Frantar and Dan Alistarh
Abstract要約: Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
参考スコア（独自算出の注目度）: 64.34635279436054
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Mixture-of-Experts (MoE) architectures offer a general solution to the high inference costs of large language models (LLMs) via sparse routing, bringing faster and more accurate models, at the cost of massive parameter counts. For example, the SwitchTransformer-c2048 model has 1.6 trillion parameters, requiring 3.2TB of accelerator memory to run efficiently, which makes practical deployment challenging and expensive. In this paper, we present a solution to this memory problem, in form of a new compression and execution framework called QMoE. Specifically, QMoE consists of a scalable algorithm which accurately compresses trillion-parameter MoEs to less than 1 bit per parameter, in a custom format co-designed with bespoke GPU decoding kernels to facilitate efficient end-to-end compressed inference, with minor runtime overheads relative to uncompressed execution. Concretely, QMoE can compress the 1.6 trillion parameter SwitchTransformer-c2048 model to less than 160GB (20x compression, 0.8 bits per parameter) at only minor accuracy loss, in less than a day on a single GPU. This enables, for the first time, the execution of a trillion-parameter model on affordable commodity hardware, like a single server with 4x NVIDIA A6000 or 8x NVIDIA 3090 GPUs, at less than 5% runtime overhead relative to ideal uncompressed inference. The source code and compressed models are available at github.com/IST-DASLab/qmoe.
Abstract（参考訳）: Mixture-of-Experts (MoE)アーキテクチャは、大きな言語モデル(LLM)のスパースルーティングによる高推論コストに対する一般的な解決策を提供する。例えば、switchtransformer-c2048モデルは1.6兆のパラメータを持ち、効率的に実行するために3.2tbのアクセルメモリを必要とする。本稿では,このメモリ問題に対する,QMoEと呼ばれる新しい圧縮実行フレームワークの形での解決策を提案する。具体的には、QMoEは1兆パラメータのMoEを1ビット未満のパラメータに正確に圧縮するスケーラブルなアルゴリズムで構成され、ベスポークGPUデコードカーネルと共同で設計され、効率的なエンドツーエンド圧縮推論を容易にする。具体的には、QMoEは1.6兆パラメータのSwitchTransformer-c2048モデルを160GB未満(20倍圧縮、パラメータあたり0.8ビット)に1GPUで1日未満で圧縮できる。これにより、4x NVIDIA A6000または8x NVIDIA 3090 GPUを持つ単一のサーバのような安価なコモディティハードウェア上で、理想的な非圧縮推論と比較して、初めて1兆パラメータモデルを実行することができる。ソースコードと圧縮モデルはgithub.com/ist-daslab/qmoeで入手できる。

関連論文リスト

70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
ZO2: Scalable Zeroth-Order Fine-Tuning for Extremely Large Language Models with Limited GPU Memory [29.245719403159615]
限られたGPUメモリしか持たないLLMの高効率ゼロオーダー微調整のための新しいフレームワークZO2を提案する。我々のフレームワークは、CPUとGPU間のデータ交換を合理化するAMPモードにおける革新的な低ビット精度アプローチをサポートしている。
論文参考訳（メタデータ） (2025-03-16T21:58:29Z)
BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments [53.71158537264695]
大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。 textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
論文参考訳（メタデータ） (2024-10-31T13:26:11Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。 MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文参考訳（メタデータ） (2024-08-19T01:30:14Z)
Practical offloading for fine-tuning LLM on commodity GPU via learned subspace projectors [11.938205508966808]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP_Offload を提案する。
論文参考訳（メタデータ） (2024-06-14T16:59:11Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
The case for 4-bit precision: k-bit Inference Scaling Laws [75.4335600212427]
量子化法は、モデル内の各パラメータを表すために必要なビット数を減少させる。最終的なモデルサイズは、元のモデルのパラメータの数と圧縮率の両方に依存する。我々は16ビットの入力とkビットのパラメータを持つ35,000以上のゼロショット実験を行い、どの量子化手法が3ビットから8ビットの精度でスケーリングを改善するかを検証した。
論文参考訳（メタデータ） (2022-12-19T18:48:33Z)
GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers [34.91478831993398]
GPTQは、近似二階情報に基づく新しい一発量量子化法である。約4GPU時間で、1750億のパラメータを持つGPTモデルを定量化できる。提案手法は,従来提案したワンショット量子化法と比較して圧縮ゲインを2倍以上に向上させる。
論文参考訳（メタデータ） (2022-10-31T13:42:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。