Fugu-MT 論文翻訳(概要): ARB-LLM: Alternating Refined Binarizations for Large Language Models

論文の概要: ARB-LLM: Alternating Refined Binarizations for Large Language Models

arxiv url: http://arxiv.org/abs/2410.03129v1
Date: Thu, 10 Oct 2024 05:38:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-03 03:36:45.972330
Title: ARB-LLM: Alternating Refined Binarizations for Large Language Models
Title（参考訳）: ARB-LLM:大規模言語モデルのための置換精製バイナリ化
Authors: Zhiteng Li, Xianglong Yan, Tianao Zhang, Haotong Qin, Dong Xie, Jiang Tian, zhongchao shi, Linghe Kong, Yulun Zhang, Xiaokang Yang,
Abstract要約: ARB-LLMは、大規模言語モデル(LLM)に適した新しい1ビット後トレーニング量子化(PTQ)技術である。 ARB-LLM$_textRC$は同じサイズのFP16モデルを超えるのは初めてです。
参考スコア（独自算出の注目度）: 82.24826360906341
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have greatly pushed forward advancements in natural language processing, yet their high memory and computational demands hinder practical deployment. Binarization, as an effective compression technique, can shrink model weights to just 1 bit, significantly reducing the high demands on computation and memory. However, current binarization methods struggle to narrow the distribution gap between binarized and full-precision weights, while also overlooking the column deviation in LLM weight distribution. To tackle these issues, we propose ARB-LLM, a novel 1-bit post-training quantization (PTQ) technique tailored for LLMs. To narrow the distribution shift between binarized and full-precision weights, we first design an alternating refined binarization (ARB) algorithm to progressively update the binarization parameters, which significantly reduces the quantization error. Moreover, considering the pivot role of calibration data and the column deviation in LLM weights, we further extend ARB to ARB-X and ARB-RC. In addition, we refine the weight partition strategy with column-group bitmap (CGB), which further enhance performance. Equipping ARB-X and ARB-RC with CGB, we obtain ARB-LLM$_\text{X}$ and ARB-LLM$_\text{RC}$ respectively, which significantly outperform state-of-the-art (SOTA) binarization methods for LLMs. As a binary PTQ method, our ARB-LLM$_\text{RC}$ is the first to surpass FP16 models of the same size. The code and models will be available at https://github.com/ZHITENGLI/ARB-LLM.
Abstract（参考訳）: 大規模言語モデル(LLM)は、自然言語処理の進歩を大いに推進してきたが、その高いメモリと計算要求は、実用的な展開を妨げている。効果的な圧縮手法であるバイナリ化は、モデルの重みを1ビットに縮めることができ、計算とメモリに対する高い要求を著しく低減することができる。しかし、現在の二項化法は、LLM重量分布における柱偏差を見越しながら、二項化と全精度化の間の分布ギャップを狭めるのに苦労している。これらの問題に対処するために,LLMに適した新しい1ビットポストトレーニング量子化(PTQ)技術であるABB-LLMを提案する。まず、二項化と全精度化の間の分布シフトを狭めるために、二項化パラメータを段階的に更新する修正二項化(ARB)アルゴリズムを設計し、量子化誤差を著しく低減する。さらに, キャリブレーションデータとLLM重みのカラム偏差を考慮し, さらにABBをABB-X, ARB-RCに拡張する。さらに,カラム群ビットマップ(CGB)を用いて重み分割戦略を改良し,性能をさらに向上する。 ARB-LLM$_\text{X}$ と ARB-LLM$_\text{RC}$ をそれぞれ取得し、LLMの最先端二値化法(SOTA)を著しく上回っている。 ARB-LLM$_\text{RC}$は同じサイズのFP16モデルを超えるのは初めてである。コードとモデルはhttps://github.com/ZHITENGLI/ARB-LLM.comで入手できる。

関連論文リスト

QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文参考訳（メタデータ） (2025-08-06T14:35:59Z)
BTC-LLM: Efficient Sub-1-Bit LLM Quantization via Learnable Transformation and Binary Codebook [20.89001326838199]
本稿では,新しいサブ1ビット大規模言語モデル(LLM)の量子化フレームワークであるBTC-LLMを提案する。提案手法は,(1)非可逆スケーリングと回転を最適化し,二項化重みを完全精度分布に整合させる学習可能な変換,(2)繰り返し発生するバイナリベクトルクラスタを識別するFlashおよび精度の高いバイナリコードブックである。
論文参考訳（メタデータ） (2025-05-24T03:57:19Z)
Reinforcement Learning for LLM Reasoning Under Memory Constraints [0.02488650627593658]
本稿では,グループ相対政策最適化のメモリ効率向上版であるS-GRPOと,よりきめ細かいクレジットカード代入のためのトークンレベルのプレフィックスマッチング戦略であるT-SPMOを紹介する。限られたリソースにもかかわらず、Qwen2-1.5Bを微調整する場合、両方の手法はLoRAトレーニングを使用してSVAMPベンチマークの精度を46%から70%以上改善した。両タスクのモデル性能(ベースモデルと比較)は,LoRAファインチューニングによるGRPOベースラインでは改善されなかった。
論文参考訳（メタデータ） (2025-04-29T14:58:43Z)
Progressive Binarization with Semi-Structured Pruning for LLMs [36.32239429974179]
大規模言語モデル(LLM)は自然言語処理タスクにおいて顕著な成功を収めた。彼らの高い計算量とメモリ要求は、リソース制約のあるデバイスへのデプロイに困難をもたらす。 LLM圧縮のための半構造化プルーニング(PBS$2$P)法によるプログレッシブバイナリ化を提案する。
論文参考訳（メタデータ） (2025-02-03T13:30:29Z)
BiMaCoSR: Binary One-Step Diffusion Model Leveraging Flexible Matrix Compression for Real Super-Resolution [63.777210548110425]
本稿では,バイナライゼーションと1段階蒸留を組み合わせたBiMaCoSRを提案する。 BiMaCoSRはFPに比べて23.8倍圧縮率と27.4倍スピードアップ比を達成した。
論文参考訳（メタデータ） (2025-02-01T06:34:55Z)
EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
モデル圧縮問題をカスタマイズした補償問題に再構成する。トレーニング不要な固有空間低ランク近似(EoRA)を提案する。 EoRAは、勾配ベースのトレーニングを必要とせずに、圧縮誘起エラーを直接最小化する。
論文参考訳（メタデータ） (2024-10-28T17:59:03Z)
SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching [32.4599581528901]
Two-towerアーキテクチャは、事前学習したLLMパラメータをコンパクトな表現に圧縮し、付加的な完全精度アダプタを微調整するために用いられる。 Sketched Adapting of LLMs (Sketched Adapting of LLMs) を提案する。 SpaLLMは事前訓練したLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。
論文参考訳（メタデータ） (2024-10-08T20:58:24Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
STBLLM: Breaking the 1-Bit Barrier with Structured Binary LLMs [28.70239743254508]
LLM圧縮のための最初の構造双対化法を1ビット未満の精度で提案する。バイナライズされたLLMの重みは、性能劣化を伴わずにランダムに反転することができる。本手法は他の圧縮バイナライズ手法よりも優れた性能を示しながら,メモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2024-08-03T15:07:44Z)
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。 WeLore(Weight Low-Rank Projection)を提案する。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
OneBit: Towards Extremely Low-bit Large Language Models [66.29839811207617]
本稿では, LLMの重量行列を1ビットに大胆に定量化し, LLMの極低ビット幅展開への道を開く。実験によると、OneBitは(LLaMAモデルの非量子化性能の少なくとも81%)優れたパフォーマンスを、堅牢なトレーニングプロセスで達成している。
論文参考訳（メタデータ） (2024-02-17T14:26:57Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文参考訳（メタデータ） (2024-01-11T18:54:44Z)
Distributed bundle adjustment with block-based sparse matrix compression for super large scale datasets [0.0]
超大規模データセットに対する厳密なLevenberg-Marquardt(LM)アルゴリズムを用いた分散バンドル調整(DBA)手法を提案する。はじめに、118万画像と1000万画像の合成データセットを持つ実データセットに対して、LMアルゴリズムを用いた並列バンドル調整を行った。
論文参考訳（メタデータ） (2023-07-17T10:43:54Z)
Exact Backpropagation in Binary Weighted Networks with Group Weight Transformations [0.0]
量子化に基づくモデル圧縮は、推論のためのハイパフォーマンスで高速なアプローチとして機能する。重みをバイナリ値に制限するモデルは、ユビキタスドット製品の効率的な実装を可能にします。
論文参考訳（メタデータ） (2021-07-03T10:29:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。