論文の概要: UltraSketchLLM: Saliency-Driven Sketching for Ultra-Low Bit LLM Compression
- arxiv url: http://arxiv.org/abs/2506.17255v1
- Date: Sun, 08 Jun 2025 16:55:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-29 09:28:14.830815
- Title: UltraSketchLLM: Saliency-Driven Sketching for Ultra-Low Bit LLM Compression
- Title(参考訳): UltraSketchLLM:Ultra-Low Bit LLM圧縮のためのSalliency-Driven Sketching
- Authors: Sunan Zou, Ziyun Zhang, Xueting Sun, Guojie Luo,
- Abstract要約: UltraSketchLLMはインデックスのないスケッチベースのフレームワークで、モデル性能を維持しながら超低ビット圧縮(重量あたり0.5ビットまで)を実現する。
提案手法では,小重量の相対誤差を最小限に抑えるために,AbsMaxMinスケッチを最小にするため,重み付けを優先するための重要空間割り当て,圧縮を意識した微調整のためのストレートスルー推定器を組み込んだ。
- 参考スコア(独自算出の注目度): 2.4253566132113877
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth of large language models (LLMs) has outpaced the memory constraints of edge devices, necessitating extreme weight compression beyond the 1-bit limit. While quantization reduces model size, it is fundamentally limited to 1 bit per weight. Existing multiple-to-one compression methods either rely on mapping tables (inducing memory overhead) or incur severe accuracy degradation due to random weight grouping. We introduce UltraSketchLLM, an index-free, sketch-based framework that achieves ultra-low bit compression (down to 0.5 bits per weight) while preserving model performance. UltraSketchLLM leverages data sketching, a sub-linear representation technique from streaming applications, to map multiple weights to single values with bounded error. Our approach integrates an underestimate AbsMaxMin sketch to minimize relative errors for small weights, importance-aware space allocation to prioritize salient weights, and a straight-through estimator for compression-aware finetuning. Experiments on Llama-3.2-1B demonstrate up to 0.5-bit compression with competitive perplexity, alongside tolerable latency overhead. UltraSketchLLM offers a practical solution for deploying LLMs in resource-constrained environments.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な成長は、エッジデバイスのメモリ制限を超過し、1ビットを超える極端な重量圧縮を必要としている。
量子化はモデルのサイズを減少させるが、基本的には重量1ビットに制限される。
既存の複数対1の圧縮手法は、マッピングテーブル(メモリオーバーヘッドを引き起こす)に依存するか、ランダムな重み付けによる精度の低下を引き起こす。
モデル性能を保ちながら超低ビット圧縮(重量あたり0.5ビットまで)を実現する,インデックスフリーのスケッチベースフレームワークであるUltraSketchLLMを紹介する。
UltraSketchLLMはストリーミングアプリケーションからのサブ線形表現技術であるデータスケッチを活用し、多重重みを境界誤差付き単一値にマッピングする。
提案手法では,小重量の相対誤差を最小限に抑えるため,AbsMaxMinスケッチを最小にするため,重み付けを優先するための重要空間割り当て,圧縮を意識した微調整のためのストレートスルー推定器を組み込んだ。
Llama-3.2-1Bの実験では、耐久性のある遅延オーバーヘッドとともに、競合するパープレキシティを持つ0.5ビットの圧縮が示されている。
UltraSketchLLM はリソース制約のある環境で LLM をデプロイするための実用的なソリューションを提供する。
関連論文リスト
- EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.297182592932918]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。
本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文 参考訳(メタデータ) (2025-05-05T05:42:14Z) - When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models [12.687035979970194]
本稿では,量子化後の大規模言語モデル(LLM)を圧縮するフレームワークを提案する。
量子化に先立ってモデルパラメータを再スケーリングすることにより, モデル重量圧縮性を高めるために, 圧縮対応量子化法が最初に提案され, さらにさらに改良するプルーニング法が提案されている。
圧縮されたモデルによる推論は、精度と推論速度の損失を無視して、メモリサイズを40%削減できることを示す実験である。
論文 参考訳(メタデータ) (2025-02-21T13:11:22Z) - Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference [19.59857352852377]
大規模言語モデル(LLM)は、急速にサイズを拡大し続けている。
これにより、小さなエッジデバイス上でのLLMの動作の困難さが増した。
本稿では,LLM重みを圧縮形式で格納するHuff-LLMを提案する。
論文 参考訳(メタデータ) (2025-02-02T21:23:42Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight
Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。
SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。
これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文 参考訳(メタデータ) (2023-06-05T17:53:28Z) - Single-path Bit Sharing for Automatic Loss-aware Model Compression [126.98903867768732]
シングルパスビット共有(SBS)は、計算コストを大幅に削減し、有望な性能を達成する。
SBS圧縮MobileNetV2は、Top-1の精度がわずか0.1%低下した22.6倍ビット演算(BOP)を実現する。
論文 参考訳(メタデータ) (2021-01-13T08:28:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。