Fugu-MT 論文翻訳(概要): Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

論文の概要: Atom: Low-bit Quantization for Efficient and Accurate LLM Serving

arxiv url: http://arxiv.org/abs/2310.19102v3
Date: Tue, 16 Apr 2024 06:08:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 01:50:05.246581
Title: Atom: Low-bit Quantization for Efficient and Accurate LLM Serving
Title（参考訳）: Atom: 効率的かつ高精度なLLMサービングのための低ビット量子化
Authors: Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci,
Abstract要約: 我々は低ビット量子化手法であるAtomを導入し,精度の低下を無視して高いスループット向上を実現する。 Atomは低ビット演算子を使用することでサービスを大幅に強化し、低ビット量子化によるメモリ消費を大幅に削減する。
参考スコア（独自算出の注目度）: 7.126191142715184
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization in the serving context. Atom improves end-to-end throughput (token/s) by up to $7.7\times$ compared to the FP16 and by $2.5\times$ compared to INT8 quantization, while maintaining the same latency target.
Abstract（参考訳）: コンテンツ生成、インテリジェントチャットボット、感情分析といったアプリケーションにおけるLLM(Large Language Models)の需要の増加は、LLMサービスプロバイダにとって大きな課題となっている。 GPUリソースを効率的に使用しスループットを向上するために、複数のリクエストのバッチ化が一般的なパラダイムとして現れ、バッチ化をさらにスピードアップするため、LLM量子化技術はメモリ消費を削減し、計算能力を向上させる。しかし、一般的な量子化スキーム(例えば、8ビットの重み-アクティベーション量子化)は、4ビット整数演算子のような現代のGPUの能力を十分に活用できないため、準最適性能が得られる。 LLMのスループットを最大化するために,低ビット量子化法であるAtomを導入する。 Atomは低ビット演算子を使用することでスループットを大幅に向上し、低ビット量子化によるメモリ消費を大幅に削減する。新規な混合精度および微粒化量子化プロセスを適用することにより、高精度を実現する。我々は4ビットの重み-アクティベーション量子化におけるAtomの評価を行った。 Atomは、FP16と比較して最大7.7\times$、INT8量子化と比較して2.5\times$で、同じレイテンシターゲットを維持しながら、エンドツーエンドのスループット(token/s)を改善する。

関連論文リスト

ELUTQ: Efficient LUT-Aware Quantization for Deploying Large Language Models on Edge Devices [3.465218658690795]
CPUベースのエッジデバイス上の大規模言語モデル(LLM)は、デバイス上のインテリジェンスの実現とAIアクセシビリティの拡大に不可欠である。我々は,新しい量子化形式である階層線形量子化(HLQ)を導入した効率的な量子化フレームワークELUTQを提案する。 HLQは計算コストを増大させることなく、重量の統計特性をよりよく捉える。 LLaMA3-8Bの場合、HLQは3ビットで約8%、2ビット精度で約85%のパープレキシティを減少させる。
論文参考訳（メタデータ） (2025-10-22T11:20:47Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
LLMPi: Optimizing LLMs for High-Throughput on Raspberry Pi [0.48212500317840945]
Raspberry Piのようなリソース制約のあるエッジデバイス上の大規模言語モデル(LLM)は、計算効率、消費電力、レスポンスレイテンシの課題を提示している。本稿では,低消費電力組込みシステム上でのLLMの高スループット・エネルギー効率実行を実現するために,量子化に基づく最適化手法について検討する。我々の発見は、エッジデバイス上でリアルタイムの対話型AIのための量子LLMの可能性を強調し、モバイルおよび組み込みアプリケーションにおける低消費電力で高効率なAIデプロイメントの道を開いた。
論文参考訳（メタデータ） (2025-04-02T20:29:39Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文参考訳（メタデータ） (2024-08-16T06:39:08Z)
QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。既存のINT4量子化メソッドは、重みや部分和を復号化する場合、実行時の大きなオーバーヘッドに悩まされる。 4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。 QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文参考訳（メタデータ） (2024-05-07T17:59:30Z)
FlattenQuant: Breaking Through the Inference Compute-bound for Large Language Models with Per-tensor Quantization [6.931020818874328]
テンソル内の大きなチャネルを平らにすることでテンソルの最大値を大幅に低減し、最小の精度でテンソル当たりの量子化を実現するFlattenQuantという手法を提案する。我々の研究は2$times$ speedupと2.3$times$ memory reduction for LLMs with negligible loss in accuracyを達成している。
論文参考訳（メタデータ） (2024-02-28T02:00:34Z)
Dual Grained Quantization: Efficient Fine-Grained Quantization for LLM [6.85331857224501]
LLM(Large Language Models)は、メモリ要件と計算能力に関する重要なハードウェア上の課題を提起する。 LLMには2つの主要な量子化スキームがある: 粗粒(textite.g.$ channel-wise)量子化と細粒(textite.g.$ group-wise)量子化である。我々は、高速な推論速度を確保しつつ優れた性能を維持するLLMのための新しいA8W4量子化であるDual Grained Quantization (DGQ)を紹介する。
論文参考訳（メタデータ） (2023-10-07T14:50:28Z)
On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文参考訳（メタデータ） (2023-09-05T04:39:34Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文参考訳（メタデータ） (2023-04-18T15:13:10Z)
Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文参考訳（メタデータ） (2020-08-12T06:09:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。