論文の概要: ScaleBITS: Scalable Bitwidth Search for Hardware-Aligned Mixed-Precision LLMs
- arxiv url: http://arxiv.org/abs/2602.17698v1
- Date: Fri, 06 Feb 2026 18:11:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.539565
- Title: ScaleBITS: Scalable Bitwidth Search for Hardware-Aligned Mixed-Precision LLMs
- Title(参考訳): ScaleBITS: ハードウェア対応混合精度LLMのためのスケーラブルビット幅探索
- Authors: Xinlin Li, Timothy Chou, Josh Fromm, Zichang Liu, Yunjie Pan, Christina Fragouli,
- Abstract要約: 学習後重み量子化は,大規模言語モデル(LLM)のメモリと推論コストの低減に不可欠である
本研究では,メモリ予算下でのビット幅の自動割り当てを実現する混合精度量子化フレームワークであるScaleBITSを提案する。
実験により、ScaleBITSは均一精度の量子化(+36%)よりも大幅に改善し、超低ビット状態における最先端の感度認識ベースライン(+13%)よりも優れていた。
- 参考スコア(独自算出の注目度): 14.073708409982705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training weight quantization is crucial for reducing the memory and inference cost of large language models (LLMs), yet pushing the average precision below 4 bits remains challenging due to highly non-uniform weight sensitivity and the lack of principled precision allocation. Existing solutions use irregular fine-grained mixed-precision with high runtime overhead or rely on heuristics or highly constrained precision allocation strategies. In this work, we propose ScaleBITS, a mixed-precision quantization framework that enables automated, fine-grained bitwidth allocation under a memory budget while preserving hardware efficiency. Guided by a new sensitivity analysis, we introduce a hardware-aligned, block-wise weight partitioning scheme, powered by bi-directional channel reordering. We formulate global bitwidth allocation as a constrained optimization problem and develop a scalable approximation to the greedy algorithm, enabling end-to-end principled allocation. Experiments show that ScaleBITS significantly improves over uniform-precision quantization (up to +36%) and outperforms state-of-the-art sensitivity-aware baselines (up to +13%) in ultra-low-bit regime, without adding runtime overhead.
- Abstract(参考訳): トレーニング後の重み量子化は,大規模言語モデル(LLM)のメモリと推論コストの低減に不可欠であるが,非均一な重み感度と原理的精度割り当ての欠如により,平均精度を4ビット以下に抑えることは依然として困難である。
既存のソリューションでは、実行時のオーバーヘッドが高い不規則な微粒な混合精度を使用するか、ヒューリスティックや高度に制約された精度割り当て戦略に依存している。
本研究では,ハードウェア効率を保ちながら,メモリ予算下での微粒化ビット幅の自動割り当てを可能にする混合精度量子化フレームワークであるScaleBITSを提案する。
新たな感度解析により,双方向チャネルの並べ替えによるハードウェア整列,ブロック単位の重み分割方式を導入する。
我々は、制約付き最適化問題としてグローバルビット幅割当を定式化し、フレディアルゴリズムのスケーラブルな近似を開発し、エンドツーエンドの原理割当を可能にする。
実験により、ScaleBITSは、一様精度の量子化(+36%)よりも大幅に改善され、ランタイムオーバーヘッドを追加することなく、超低ビット状態における最先端の感度認識ベースライン(最大+13%)を上回ることが示されている。
関連論文リスト
- SFMP: Fine-Grained, Hardware-Friendly and Search-Free Mixed-Precision Quantization for Large Language Models [4.269807933198402]
混合精度量子化(Mixed-precision Quantization)は、強いメモリ予算の下で大きな言語モデルを圧縮するための有望なアプローチである。
本研究では,大規模言語モデルを対象とした検索自由かつハードウェアフレンドリな混合精度量子化フレームワークであるSFMPを提案する。
論文 参考訳(メタデータ) (2026-02-01T05:24:19Z) - Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。
SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。
したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文 参考訳(メタデータ) (2025-05-01T06:47:45Z) - FineQ: Software-Hardware Co-Design for Low-Bit Fine-Grained Mixed-Precision Quantization of LLMs [13.951330786310262]
FineQは、ソフトウェアとハードウェアの共同設計であり、大規模言語モデルの低ビット細粒度混合精度量子化のための設計である。
重みをよりきめ細かいクラスタに分割し、これらのクラスタ内の外れ値の分布を考慮する。
近似平均ビット幅でのSOTA混合精度量子化アルゴリズムと比較してモデル精度が向上する。
論文 参考訳(メタデータ) (2025-04-28T12:47:23Z) - MixLLM: LLM Quantization with Global Mixed-precision between Output-features and Highly-efficient System Design [1.3589914205911104]
我々は,その精度,メモリ消費,システム効率の三角形に対する効果に関する一般量子化原理を包括的に分析する。
出力特徴間の混合精度量子化の新しい最適化空間を探索するMixLLMを提案する。
本稿では,アルゴリズム-システム共設計の量子化構成のスイートスポットについて述べる。
論文 参考訳(メタデータ) (2024-12-19T07:15:15Z) - Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。