論文の概要: OSC: Hardware Efficient W4A4 Quantization via Outlier Separation in Channel Dimension
- arxiv url: http://arxiv.org/abs/2604.12782v1
- Date: Tue, 14 Apr 2026 14:17:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.493789
- Title: OSC: Hardware Efficient W4A4 Quantization via Outlier Separation in Channel Dimension
- Title(参考訳): OSC:チャネル次元の外部分離によるハードウェア効率のよいW4A4量子化
- Authors: Zhiyuan Zhang, Yanzhao Li, Zhiqiang Zou, Bai Du, Yupeng Sun, Hui Dong, Hui Wang,
- Abstract要約: 我々は、外乱抑制のためのハードウェア効率の良いフレームワークOSCを提案する。
OSCは非常にハードウェアフレンドリーで、現代のAIアクセラレーターのW8A8 GEMMベースラインよりも1.78倍のピーク速度を達成した。
- 参考スコア(独自算出の注目度): 5.50723299083202
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While 4-bit quantization is essential for high-throughput deployment of Large Language Models, activation outliers often lead to significant accuracy degradation due to the restricted dynamic range of low-bit formats. In this paper, we systematically investigate the spatial distribution of outliers and demonstrate a token-persistent structural clustering effect, where high-magnitude outliers consistently occupy fixed channels across tokens. Building on this insight, we propose OSC, a hardware-efficient framework for outlier suppression. During inference, OSC executes a dual-path computation consisting of a low-precision 4-bit General Matrix Multiplication (GEMM) path and a high-precision 16-bit branch GEMM path. Specifically, OSC uses an offline group-wise strategy to identify the channels where outliers are located and then performs structured sub-tensor extraction to coalesce these scattered activation channels into a compact dense tensor online. This mechanism implements outlier protection through regularized and high-throughput GEMM operations, achieving a seamless fit with modern 4-bit micro-scaling hardware. Furthermore, for the inputs of W2 where outlier clustering is less pronounced, we integrate a fallback strategy to FP8. Evaluation on Qwen3-8B and Qwen3-30B restricts the average accuracy drop to 2.19 and 1.12 points, respectively. Notably, OSC is highly hardware-friendly, achieving a peak speedup of 1.78x over the W8A8 GEMM baseline on a modern AI accelerator.
- Abstract(参考訳): 4ビット量子化は大規模言語モデルの高スループット展開には不可欠であるが、アクティベーション・アウトレイアは低ビットフォーマットの動的範囲が制限されているため、しばしば大幅な精度低下を引き起こす。
本稿では,外乱の空間分布を体系的に検討し,高次外乱がトークン間の固定チャネルを一貫して占有するトークン持続型構造クラスタリング効果を示す。
この知見に基づいて,外乱抑制のためのハードウェア効率の良いフレームワークOSCを提案する。
推論中、OSCは低精度の4ビット一般行列乗算(GEMM)パスと高精度の16ビット分岐GEMMパスからなるデュアルパス計算を実行する。
特に、OSCはオフラインのグループワイド戦略を使用して、アウトレーヤが配置されているチャネルを特定し、構造化されたサブテンソル抽出を行い、これらの分散活性化チャネルをオンラインのコンパクトなテンソルに合体させる。
この機構は、正規化および高スループットのGEMM演算によるアウリエ保護を実装し、現代の4ビットマイクロスケーリングハードウェアとシームレスに適合する。
さらに,外部クラスタリングの精度が低いW2の入力に対しては,フォールバック戦略をFP8に統合する。
Qwen3-8BとQwen3-30Bの評価では、それぞれ平均精度の低下を2.19点と1.12点に制限している。
特にOSCはハードウェアフレンドリーで、現代のAIアクセラレーターのW8A8 GEMMベースラインよりも1.78倍のスピードアップを達成した。
関連論文リスト
- Bit-by-Bit: Progressive QAT Strategy with Outlier Channel Splitting for Stable Low-Bit LLMs [34.72414661826396]
我々は、外部チャネル分割を備えたプログレッシブQATフレームワークBit-by-Bitを提案する。
提案手法は,(1)精度を段階的に低下させるブロックワイド・プログレッシブ・トレーニング,(2)整数量子化格子のネスト構造,(3)ラウンドリング・アウェア・アウトリー・チャネル分割の3つの重要な要素を統合する。
W2A2設定下では、Bit-by-BitはBitDistillerやEfficientQATといったベースラインをLlama2/3で大幅に上回り、2.25 WikiText2 PPLの損失しか得られない。
論文 参考訳(メタデータ) (2026-04-09T06:56:39Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference [1.1100764382749708]
RAMP (Reinforcement Adaptive Mixed Precision) は、グローバルビット予算の下でパープレキシティを最小限に抑えるために、層幅の割り当て毎に学習する。
Llama 2 7Bでは、RAMPは3.68GB (3.65 ビット)で5.54パープレキシティを実現し、均一な4ビット AWQ (5.60 ビット、3.90 GB)と GPTQ を6%、品質は1%から3%向上した。
論文 参考訳(メタデータ) (2026-03-18T16:16:28Z) - Privacy-Aware Split Inference with Speculative Decoding for Large Language Models over Wide-Area Networks [0.0]
本稿では、信頼性のあるローカルGPUとクラウドGPUのトランスフォーマーを分割する、プライバシーに配慮した大規模言語モデル(LLM)の実用的なシステムを提案する。
我々のシステムは、高速広帯域ネットワーク(WAN)上での自己回帰LDM復号化の独特な課題に対処する。
システムは4.9GBのローカルVRAMと7Bのスループットしか持たない大型モデルに一般化される。
論文 参考訳(メタデータ) (2026-02-18T14:13:08Z) - ARCQuant: Boosting NVFP4 Quantization with Augmented Residual Channels for LLMs [4.431548809730958]
ARCQuantは、Augmented Residual Channelsを通じてNVFP4パフォーマンスを向上させるフレームワークである。
ARCQuantは、複雑なタスクや下流タスクにおいて、完全精度のベースラインに匹敵する、最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-01-12T12:27:22Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - LiquidGEMM: Hardware-Efficient W4A8 GEMM Kernel for High-Performance LLM Serving [16.392977892243895]
LiquidGEMMは、4ビットの重みと8ビットのアクティベーション量子化のためのハードウェア効率の量子化手法である。
LiquidGEMMは最先端のW4A8カーネル上で最大2.90倍のスピードアップを実現し、最大4.94倍のエンドツーエンドのシステムレベルのスピードアップを実現している。
論文 参考訳(メタデータ) (2025-09-01T08:16:20Z) - Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。