Fugu-MT 論文翻訳(概要): From a Lossless (~1.5:1) Compression Algorithm for Llama2 7B Weights to Variable Precision, Variable Range, Compressed Numeric Data Types for CNNs and LLMs

論文の概要: From a Lossless (~1.5:1) Compression Algorithm for Llama2 7B Weights to Variable Precision, Variable Range, Compressed Numeric Data Types for CNNs and LLMs

arxiv url: http://arxiv.org/abs/2404.10896v1
Date: Tue, 16 Apr 2024 20:37:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 17:52:27.116122
Title: From a Lossless (~1.5:1) Compression Algorithm for Llama2 7B Weights to Variable Precision, Variable Range, Compressed Numeric Data Types for CNNs and LLMs
Title（参考訳）: Llama2 7B重みの無損失(~1.5:1)圧縮アルゴリズムから可変精度、可変範囲、CNNおよびLLM用圧縮数値データ型へ
Authors: Vincenzo Liguori,
Abstract要約: 本稿では,LLM (Large Language Model) Llama2 7Bの重みに対する単純な損失のない1.5:1圧縮アルゴリズムから始める。その後、可変精度、可変範囲、圧縮された数値データ型に拡張される。重量圧縮と共有を用いたトークンファクトリの例も提供される。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper starts with a simple lossless ~1.5:1 compression algorithm for the weights of the Large Language Model (LLM) Llama2 7B [1] that can be implemented in ~200 LUTs in AMD FPGAs, processing over 800 million bfloat16 numbers per second. This framework is then extended to variable precision, variable range, compressed numerical data types that are a user defined super set of both floats and posits [2]. The paper then discusses a simple hardware implementation of such format based on ANS (Asymmetrical Numeral Systems) [3] that acts as a bridge between this flexible data format and a computational engine while, at the same time, achieving bandwidth reduction. An example of a token factory using weight compression and sharing is also given.
Abstract（参考訳）: 本稿では,大言語モデル (LLM) Llama2 7B [1] の重みに対する単純なロスレス ~1.5:1 圧縮アルゴリズムから始める。その後、このフレームワークは可変精度、可変範囲、圧縮された数値データ型に拡張される。次に、この柔軟なデータフォーマットと計算エンジンとのブリッジとして機能するANS(非対称数値システム) [3]に基づく、そのようなフォーマットの簡単なハードウェア実装について、同時に帯域幅削減を実現する。重量圧縮と共有を用いたトークンファクトリの例も提供される。

関連論文リスト

BTC-LLM: Efficient Sub-1-Bit LLM Quantization via Learnable Transformation and Binary Codebook [20.89001326838199]
本稿では,新しいサブ1ビット大規模言語モデル(LLM)の量子化フレームワークであるBTC-LLMを提案する。提案手法は,(1)非可逆スケーリングと回転を最適化し,二項化重みを完全精度分布に整合させる学習可能な変換,(2)繰り返し発生するバイナリベクトルクラスタを識別するFlashおよび精度の高いバイナリコードブックである。
論文参考訳（メタデータ） (2025-05-24T03:57:19Z)
R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。 CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文参考訳（メタデータ） (2025-05-22T16:06:59Z)
Addition is almost all you need: Compressing neural networks with double binary factorization [0.0]
二重二元因子化(DBF)は、密度重み行列を2つの二元行列の積に分解する新しい方法である。 DBFは2値表現の効率性を保ちつつ、最先端の手法と競合する圧縮率を達成する。重量あたりの2ビットでは、DBFはQuIP#やQTIPのような最高の量子化手法と競合する。
論文参考訳（メタデータ） (2025-05-16T10:07:36Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models [9.444063879246242]
本稿では,新しい任意のビット量子化アルゴリズムと推論フレームワークであるABQ-LLMを紹介する。様々な量子化設定において優れた性能を実現し、GPU上で効率的な任意の精度の量子化推論を可能にする。
論文参考訳（メタデータ） (2024-08-16T06:39:08Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文参考訳（メタデータ） (2023-10-25T17:24:53Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Optimizing Sparse Linear Algebra Through Automatic Format Selection and Machine Learning [0.0]
Morpheus-Oracleは軽量なMLオートチューニングを提供するライブラリで、複数のバックエンドで最適なフォーマットを正確に予測できる。平均分類精度は92.63%と80.22%である。
論文参考訳（メタデータ） (2023-03-09T08:17:26Z)
COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文参考訳（メタデータ） (2022-01-30T20:12:04Z)
A MAC-less Neural Inference Processor Supporting Compressed, Variable Precision Weights [0.0]
本稿では、畳み込みニューラルネットワーク(CNN)の推論のための2つのアーキテクチャを紹介する。最初のアーキテクチャは multiply-accumulators (macs) を使用するが、ゼロウェイトをスキップすることで不要な乗算を避ける。第2のアーキテクチャは、より小さいビット層乗算器(BLMAC)でリソース集約MACを置換することにより、ビット表現のレベルでの重み間隔を利用する。
論文参考訳（メタデータ） (2020-12-10T23:13:17Z)
A flexible, extensible software framework for model compression based on the LC algorithm [10.787390511207683]
ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できるソフトウェアフレームワークを提案する。ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。
論文参考訳（メタデータ） (2020-05-15T21:14:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。