論文の概要: BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments
- arxiv url: http://arxiv.org/abs/2410.23918v1
- Date: Thu, 31 Oct 2024 13:26:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:03:54.318534
- Title: BitStack: Fine-Grained Size Control for Compressed Large Language Models in Variable Memory Environments
- Title(参考訳): BitStack: 可変メモリ環境における圧縮大言語モデルのための微細粒度制御
- Authors: Xinghao Wang, Pengyu Wang, Bo Wang, Dong Zhang, Yunhua Zhou, Xipeng Qiu,
- Abstract要約: 大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
textbfBitStackは,メモリ使用量とモデル性能のトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である。
- 参考スコア(独自算出の注目度): 53.71158537264695
- License:
- Abstract: Large language models (LLMs) have revolutionized numerous applications, yet their deployment remains challenged by memory constraints on local devices. While scaling laws have enhanced LLM capabilities, the primary bottleneck has shifted from \textit{capability} to \textit{availability}, emphasizing the need for efficient memory management. Traditional compression methods, such as quantization, often require predefined compression ratios and separate compression processes for each setting, complicating deployment in variable memory environments. In this paper, we introduce \textbf{BitStack}, a novel, training-free weight compression approach that enables megabyte-level trade-offs between memory usage and model performance. By leveraging weight decomposition, BitStack can dynamically adjust the model size with minimal transmission between running memory and storage devices. Our approach iteratively decomposes weight matrices while considering the significance of each parameter, resulting in an approximately 1-bit per parameter residual block in each decomposition iteration. These blocks are sorted and stacked in storage as basic transmission units, with different quantities loaded based on current memory availability. Extensive experiments across a wide range of tasks demonstrate that, despite offering fine-grained size control, BitStack consistently matches or surpasses strong quantization baselines, particularly at extreme compression ratios. To the best of our knowledge, this is the first decomposition-based method that effectively bridges the gap to practical compression techniques like quantization. Code is available at https://github.com/xinghaow99/BitStack.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くのアプリケーションに革命をもたらしたが、ローカルデバイスにおけるメモリ制限により、その展開は依然として困難である。
スケーリング法則は LLM の機能を強化しているが、主要なボトルネックは \textit{capability} から \textit{availability} に移行し、効率的なメモリ管理の必要性を強調している。
量子化のような従来の圧縮手法では、あらかじめ定義された圧縮比と各設定ごとに別々の圧縮プロセスを必要とし、可変メモリ環境への展開を複雑にする。
本稿では,メモリ使用量とモデル性能のメガバイトレベルのトレードオフを可能にする,新しいトレーニング不要な重み圧縮手法である \textbf{BitStack} を紹介する。
重量分解を活用することで、BitStackは実行中のメモリとストレージデバイス間の最小転送でモデルサイズを動的に調整できる。
提案手法は,各パラメータの重み行列を反復的に分解し,各分解繰り返しにおけるパラメータ残差ブロックの約1ビットを導出する。
これらのブロックは基本的な送信ユニットとしてソートされ、ストレージに積み上げられる。
幅広いタスクにわたる大規模な実験により、BitStackはきめ細かなサイズ制御を提供するが、強い量子化ベースライン、特に極端な圧縮比と一貫して一致または超えることを示した。
我々の知る限りでは、これは量子化のような実用的な圧縮技術にギャップを効果的に橋渡しする最初の分解に基づく方法である。
コードはhttps://github.com/xinghaow99/BitStackで入手できる。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Athena: Efficient Block-Wise Post-Training Quantization for Large Language Models Using Second-Order Matrix Derivative Information [5.756323337411276]
大規模言語モデル(LLM)は、機械翻訳、テキスト生成、感情分析などの高度な自然言語処理タスクを持つ。
数十億のパラメータで構成されるその大きなサイズは、ストレージ、計算、デプロイメントの課題を提起する。
我々は,LLMの効率的なブロックワイズ後量子化のための新しいアルゴリズムであるAthenaを提案する。
論文 参考訳(メタデータ) (2024-05-24T03:14:29Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - LoMA: Lossless Compressed Memory Attention [0.0]
Lossless Compressed Memory Attention (LoMA) は、自己回帰生成時のメモリと計算要求を減らす新しいアプローチである。
LoMAには、圧縮コンテキストに最適化された自己回帰生成アルゴリズムとともに、特別なトレーニングや微調整の事前処理が組み込まれている。
実験的検証により、LoMAは計算消費とメモリ使用量を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-16T09:18:46Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance [0.22499166814992438]
最近のディープラーニングモデルは、大規模なバッチサイズを使用してトレーニングするのは難しい。
マシンはモデルと大きなデータバッチサイズの両方に対応するのに十分なメモリを持っていないかもしれない。
本稿では,マイクロバッチ処理(MBP)と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T16:38:05Z) - Neural Network Compression for Noisy Storage Devices [71.4102472611862]
従来、モデル圧縮と物理ストレージは分離される。
このアプローチでは、ストレージは圧縮されたモデルの各ビットを等しく扱い、各ビットに同じ量のリソースを割り当てるように強制される。
i) 各メモリセルの容量を最大化するためにアナログメモリを使用し, (ii) モデル圧縮と物理ストレージを共同で最適化し, メモリの有用性を最大化する。
論文 参考訳(メタデータ) (2021-02-15T18:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。