論文の概要: Microscaling Floating Point Formats for Large Language Models
- arxiv url: http://arxiv.org/abs/2510.01863v1
- Date: Thu, 02 Oct 2025 10:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.086185
- Title: Microscaling Floating Point Formats for Large Language Models
- Title(参考訳): 大規模言語モデルのためのマイクロスケーリング浮動小数点フォーマット
- Authors: Marco Cococcioni, Dario Pagani, Federico Rossi,
- Abstract要約: マイクロスケーリング浮動小数点形式は、大規模言語モデル(LLM)における数値表現に関連するストレージと計算オーバーヘッドを削減するために設計された新しい手法である。
マイクロスケーリングデータフォーマットは、トレーニングや推論中に競合する精度を達成でき、LLMを大規模に展開するためのリソース効率の良い代替手段としての有効性が証明されている。
- 参考スコア(独自算出の注目度): 1.9677543902436454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing computational and memory demands of large language models (LLMs) necessitate innovative approaches to optimize resource usage without compromising performance. This paper leverages microscaling floating-point formats, a novel technique designed to address these challenges by reducing the storage and computational overhead associated with numerical representations in LLMs. Unlike traditional floating-point representations that allocate a dedicated scale for each value, microscaling employs a shared scale across a block of values, enabling compact one-byte floating-point representations while maintaining an extended dynamic range. We explore the application of microscaling in the context of 8-bit floating-point formats to significantly reduce memory footprint and computational costs. We tested several configurations of microscaling floats within the GPT-2 LLM architecture, demonstrating that microscaling data formats can achieve competitive accuracy during training and inference, proving its efficacy as a resource-efficient alternative for deploying LLMs at scale. The source code is publicly available at: https://github.com/unipi-dii-compressedarith/llm.c-sve
- Abstract(参考訳): 大規模言語モデル(LLM)の計算とメモリ要求の増大は、性能を損なうことなくリソース使用を最適化するための革新的なアプローチを必要とする。
本稿では,LLMの数値表現に伴うストレージと計算オーバーヘッドを低減し,これらの課題に対処する新しい手法である,マイクロスケーリング浮動小数点形式を活用する。
それぞれの値に専用のスケールを割り当てる従来の浮動小数点表現とは異なり、マイクロスケーリングでは1バイトの浮動小数点表現をコンパクトにし、拡張されたダイナミックレンジを維持しながら使用することができる。
メモリフットプリントと計算コストを大幅に削減するため、8ビット浮動小数点フォーマットの文脈におけるマイクロスケーリングの適用について検討する。
我々は、GPT-2 LLMアーキテクチャ内のマイクロスケーリングフロートの構成を試験し、マイクロスケーリングデータフォーマットが、トレーニングや推論中に競合する精度を達成できることを実証し、LLMを大規模に展開するためのリソース効率の良い代替手段としての有効性を実証した。
ソースコードは、https://github.com/unipi-dii-compressedarith/llm.c-sveで公開されている。
関連論文リスト
- LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - The Power of Negative Zero: Datatype Customization for Quantized Large Language Models [5.503925076208333]
学習後の量子化は、大規模言語モデル(LLM)のメモリと計算要求を緩和する最もハードウェア効率の良い方法の1つである。
本稿では,基本FPデータ型を拡張して冗長ゼロリマッピング(RaZeR)を行う。
RaZeRは、負のゼロFPエンコーディングを、FP量子化エンコーディングを最大限活用し、数値分布をよりよく適合させるために、予め定義された特別な値のセットに再マップする。
論文 参考訳(メタデータ) (2025-01-06T22:40:40Z) - Scaling Laws for Floating Point Quantization Training [47.174957621592775]
本稿では、FP量子化目標、指数ビット、マティーサビットの影響と、LLMモデルのFP量子化訓練性能におけるスケーリング係数の計算について検討する。
ハードウェアメーカーが将来参照できるビット数に対して最適な指数-行列ビット比を提供する。
論文 参考訳(メタデータ) (2025-01-05T02:30:41Z) - Anda: Unlocking Efficient LLM Inference with a Variable-Length Grouped Activation Data Format [5.527166214435735]
量子化大言語モデル(LLM)は低ビット整数(INT)重みを利用し、浮動小数点(FP)アクティベーションを保持する。
これにより、コストのかかるメモリアクセスと計算に関連するFPアクティベーションに、エネルギとレイテンシのボトルネックがシフトする。
既存のLCMアクセラレータは、FP計算とデータ移動を協調的に最適化する可能性を見越して、計算最適化に重点を置いている。
論文 参考訳(メタデータ) (2024-11-24T20:59:39Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs [39.410068572891475]
後トレーニング量子化(PTQ)はモデル圧縮の強力な技術であり、追加のトレーニングオーバーヘッドなしにニューラルネットワークの数値精度を低下させる。
近年,モデル推論におけるPTQの文脈における8ビット浮動小数点形式(FP8)の適用について検討している。
本稿では,モデルのメモリフットプリント,レイテンシ,エネルギーコストをさらに削減できる,精度の低い浮動小数点形状のミニフロートを提案する。
論文 参考訳(メタデータ) (2023-11-21T05:27:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。