Fugu-MT 論文翻訳(概要): Nanoscaling Floating-Point (NxFP): NanoMantissa, Adaptive Microexponents, and Code Recycling for Direct-Cast Compression of Large Language Models

論文の概要: Nanoscaling Floating-Point (NxFP): NanoMantissa, Adaptive Microexponents, and Code Recycling for Direct-Cast Compression of Large Language Models

arxiv url: http://arxiv.org/abs/2412.19821v1
Date: Sun, 15 Dec 2024 22:18:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 09:44:57.588754
Title: Nanoscaling Floating-Point (NxFP): NanoMantissa, Adaptive Microexponents, and Code Recycling for Direct-Cast Compression of Large Language Models
Title（参考訳）: ナノスケーリング浮動小数点(NxFP) : 大規模言語モデルの直接圧縮のためのナノマニッサ, 適応マイクロエクスペリエンス, コードリサイクル
Authors: Yun-Chen Lo, Gu-Yeon Wei, David Brooks,
Abstract要約: ナノスケーリング(NxFP)は、最先端のMxFPよりも精度とメモリフットプリントを向上する3つの手法を提案する。 NxFPはメモリフットプリントを最大16%削減し、MxFPと同等のパープレキシティを実現する。
参考スコア（独自算出の注目度）: 5.680646377552021
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As cutting-edge large language models (LLMs) continue to transform various industries, their fast-growing model size and sequence length have led to memory traffic and capacity challenges. Recently, AMD, Arm, Intel, Meta, Microsoft, NVIDIA, and Qualcomm have proposed a Microscaling standard (Mx), which augments block floating-point with microexponents to achieve promising perplexity-to-footprint trade-offs. However, the Microscaling suffers from significant perplexity degradation on modern LLMs with less than six bits. This paper profiles modern LLMs and identifies three main challenges of low-bit Microscaling format, i.e., inaccurate tracking of outliers, vacant quantization levels, and wasted binary code. In response, Nanoscaling (NxFP) proposes three techniques, i.e., NanoMantissa, Adaptive Microexponent, and Code Recycling to enable better accuracy and smaller memory footprint than state-of-the-art MxFP. Experimental results on direct-cast inference across various modern LLMs demonstrate that our proposed methods outperform state-of-the-art MxFP by up to 0.64 in perplexity and by up to 30% in accuracy on MMLU benchmarks. Furthermore, NxFP reduces memory footprint by up to 16% while achieving comparable perplexity as MxFP.
Abstract（参考訳）: 最先端の大規模言語モデル(LLM)が様々な産業を変革し続けるにつれ、その急速に成長するモデルサイズとシーケンス長は、メモリトラフィックとキャパシティの課題に繋がった。最近ではAMD、Arm、Intel、Meta、Microsoft、NVIDIA、QualcommがMicroscaling標準(Mx)を提案している。しかし、マイクロスケーリングは6ビット未満の現代のLSMにおいて重大なパープレキシティ劣化に悩まされている。本稿では,マイクロスケーリングフォーマットにおける3つの主要な課題,すなわち,外れ値の不正確な追跡,空の量子化レベル,無駄なバイナリコードについて述べる。これに対し、Nanoscaling (NxFP)は、最新のMxFPよりも正確で少ないメモリフットプリントを実現するために、NanoMantissa、Adaptive Microexponent、Codecycleという3つの技術を提案する。各種LLMの直接キャスト推定実験の結果,提案手法はMMLUベンチマークの精度を最大0.64倍,精度を最大30%向上することがわかった。さらに、NxFPはメモリフットプリントを最大16%削減し、MxFPと同等のパープレキシティを実現している。

関連論文リスト

MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models [3.305409455598179]
量子化は大規模言語モデル(LLM)の推論を著しく加速する近年のウェイトアクティベーション量子化の進歩は、主にウェイトとアクティベーションの両方をINT4フォーマットにマッピングすることに焦点を当てている。マイクロスケーリング(MX)データフォーマットをベースとした混合精度量子化アルゴリズムと行列乗算カーネルであるMicroMixを提案する。
論文参考訳（メタデータ） (2025-08-04T12:22:39Z)
Accelerating LLM Inference with Flexible N:M Sparsity via A Fully Digital Compute-in-Memory Accelerator [5.985414012866983]
固定N:M構造を持つ大言語モデル(LLM)はスパースモデルの表現性を制限している。フレキシブルな層状外層密度対応N:Mスパシティ(FLOW)選択法を提案する。次に、フレキシブルで低オーバーヘッドのデジタルコンピュートインメモリアーキテクチャ(FlexCiM)を紹介します。
論文参考訳（メタデータ） (2025-04-19T17:47:01Z)
Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。 LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。 LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文参考訳（メタデータ） (2025-03-10T09:26:08Z)
The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。 RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文参考訳（メタデータ） (2025-01-06T22:40:40Z)
MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization [6.456189487006878]
基本モデル(FM)の量子化は、外れ値と呼ばれる大規模な特徴の出現によって困難である。既存のoutlier-awareアルゴリズム/アーキテクチャの共同設計技術は、混合精度を使用し、outlierを高い精度で保持するが、ハードウェア効率を損なうか、同じ精度でinlierとoutlierを定量化する。我々は、プルーニングを利用して外れ値認識量子化を補完する新しい共同設計手法MicroScopiQを提案する。
論文参考訳（メタデータ） (2024-11-08T02:25:45Z)
Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。 PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文参考訳（メタデータ） (2024-10-17T11:46:33Z)
OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Models [0.562479170374811]
本稿では, OPAL と呼ばれるエネルギー効率の高い LLM アクセラレータを生成タスクに適用するハードウェア・ソフトウェア共同設計手法を提案する。 OPALは、電力効率を最大化するためにシフトと減算のみを必要とするソフトマックス演算にlog2ベースの近似を使用する。その結果、エネルギー効率を 1.62.2x に改善し、面積を 2.43.1x に減らし、精度を損なうことができる。
論文参考訳（メタデータ） (2024-09-06T02:33:20Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文参考訳（メタデータ） (2024-02-19T09:04:30Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Accelerating RNN-based Speech Enhancement on a Multi-Core MCU with Mixed FP16-INT8 Post-Training Quantization [0.0]
リカレントニューラルネットワーク(RNN)に基づく音声強調(SE)アルゴリズムは、最先端マイクロコントローラユニット(MCU)上に展開される LSTMまたはGRU再帰ブロックの並列計算を手動で管理したメモリ転送を伴う最適化されたソフトウェアパイプラインを提案する。実験は、Valentiniデータセットでトレーニングされた複数のLSTMとGRUベースのSEモデルで行われ、最大1.24Mパラメータが特徴である。
論文参考訳（メタデータ） (2022-10-14T10:32:05Z)
MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。 MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文参考訳（メタデータ） (2020-11-24T18:59:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。