論文の概要: From a Lossless (~1.5:1) Compression Algorithm for Llama2 7B Weights to Variable Precision, Variable Range, Compressed Numeric Data Types for CNNs and LLMs
- arxiv url: http://arxiv.org/abs/2404.10896v1
- Date: Tue, 16 Apr 2024 20:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 17:52:27.116122
- Title: From a Lossless (~1.5:1) Compression Algorithm for Llama2 7B Weights to Variable Precision, Variable Range, Compressed Numeric Data Types for CNNs and LLMs
- Title(参考訳): Llama2 7B重みの無損失(~1.5:1)圧縮アルゴリズムから可変精度、可変範囲、CNNおよびLLM用圧縮数値データ型へ
- Authors: Vincenzo Liguori,
- Abstract要約: 本稿では,LLM (Large Language Model) Llama2 7Bの重みに対する単純な損失のない1.5:1圧縮アルゴリズムから始める。
その後、可変精度、可変範囲、圧縮された数値データ型に拡張される。
重量圧縮と共有を用いたトークンファクトリの例も提供される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper starts with a simple lossless ~1.5:1 compression algorithm for the weights of the Large Language Model (LLM) Llama2 7B [1] that can be implemented in ~200 LUTs in AMD FPGAs, processing over 800 million bfloat16 numbers per second. This framework is then extended to variable precision, variable range, compressed numerical data types that are a user defined super set of both floats and posits [2]. The paper then discusses a simple hardware implementation of such format based on ANS (Asymmetrical Numeral Systems) [3] that acts as a bridge between this flexible data format and a computational engine while, at the same time, achieving bandwidth reduction. An example of a token factory using weight compression and sharing is also given.
- Abstract(参考訳): 本稿では,大言語モデル (LLM) Llama2 7B [1] の重みに対する単純なロスレス ~1.5:1 圧縮アルゴリズムから始める。
その後、このフレームワークは可変精度、可変範囲、圧縮された数値データ型に拡張される。
次に、この柔軟なデータフォーマットと計算エンジンとのブリッジとして機能するANS(非対称数値システム) [3]に基づく、そのようなフォーマットの簡単なハードウェア実装について、同時に帯域幅削減を実現する。
重量圧縮と共有を用いたトークンファクトリの例も提供される。
関連論文リスト
- BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [55.61026644837707]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
これにより、1つのGPU上で0.5時間以内に70億重量のLLMをバイナライズし、良好な時間効率を示すことができる。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - SqueezeLLM: Dense-and-Sparse Quantization [83.7810943431625]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures
using Lookup Tables [49.965024476651706]
DeepGEMMはSIMDハードウェア上で超高精度畳み込みニューラルネットワークを実行するためのルックアップテーブルベースのアプローチである。
実装は、x86プラットフォーム上で、対応する8ビット整数カーネルを最大1.74倍の性能で上回る。
論文 参考訳(メタデータ) (2023-04-18T15:13:10Z) - Optimizing Sparse Linear Algebra Through Automatic Format Selection and
Machine Learning [0.0]
Morpheus-Oracleは軽量なMLオートチューニングを提供するライブラリで、複数のバックエンドで最適なフォーマットを正確に予測できる。
平均分類精度は92.63%と80.22%である。
論文 参考訳(メタデータ) (2023-03-09T08:17:26Z) - Block Format Error Bounds and Optimal Block Size Selection [7.056118133284956]
ここで最も期待され、急速に進歩しているフロンティアの1つは、新しいデータフォーマットの作成である。
本稿では, 数値演算を用いた内部積の動的範囲, 数値的精度, 効率的なハードウェア実装の組み合わせにより, ブロック浮動小数点数値形式に焦点をあてる。
論文 参考訳(メタデータ) (2022-10-11T14:15:09Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - A MAC-less Neural Inference Processor Supporting Compressed, Variable
Precision Weights [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)の推論のための2つのアーキテクチャを紹介する。
最初のアーキテクチャは multiply-accumulators (macs) を使用するが、ゼロウェイトをスキップすることで不要な乗算を避ける。
第2のアーキテクチャは、より小さいビット層乗算器(BLMAC)でリソース集約MACを置換することにより、ビット表現のレベルでの重み間隔を利用する。
論文 参考訳(メタデータ) (2020-12-10T23:13:17Z) - A flexible, extensible software framework for model compression based on
the LC algorithm [10.787390511207683]
ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できるソフトウェアフレームワークを提案する。
ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。
論文 参考訳(メタデータ) (2020-05-15T21:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。