論文の概要: AXELRAM: Quantize Once, Never Dequantize
- arxiv url: http://arxiv.org/abs/2604.02638v1
- Date: Fri, 03 Apr 2026 02:03:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.275185
- Title: AXELRAM: Quantize Once, Never Dequantize
- Title(参考訳): AXELRAM:一度だけ量子化し、決して量子化しない
- Authors: Yasushi Nishida,
- Abstract要約: AXELRAMは、量子化されたKVキャッシュインデックスから直接注目スコアを算出する。
我々は,根本原因をレイヤーワイド標準に追従し,ハードウェアコストゼロの破滅的なスパイクを排除した勾配のない符号パターン選択(200の候補,8のキャリブレーションサンプル,1回)を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose AXELRAM, a smart SRAM macro architecture that computes attention scores directly from quantized KV cache indices without dequantization. The key enabler is a design-time fixed codebook: orthogonal-transform-based quantization concentrates each coordinate's distribution to N(0,1/d), so the optimal quantizer depends only on dimension d and bit-width b, not on input data. The asymmetric path design -- transform on write, table-lookup on read with no inverse transform -- reduces per-query multiplications by 102.4x (a mathematical identity). Through multi-seed evaluation (10 seeds x 3 models), we discover that sign pattern sensitivity causes catastrophic PPL spikes (Delta > 50) on certain models (Qwen2.5-3B), while others (LLaMA-3.1-8B) are fully stable. This phenomenon extends SpinQuant's observation of rotation variance in weight quantization to the KV cache domain, where the effect is qualitatively more severe. We trace the root cause to layer-wise norm heterogeneity and propose a gradient-free sign pattern selection (200 candidates, 8 calibration samples, one-time) that eliminates catastrophic spikes with zero additional hardware cost. All source code is available at https://github.com/Axelidea/AXELRAM.
- Abstract(参考訳): 本稿では,量子化KVキャッシュインデックスから直接注目スコアを算出するスマートSRAMマクロアーキテクチャであるAXELRAMを提案する。
直交変換に基づく量子化は各座標の分布を N(0,1/d) に集中させるので、最適量子化器は入力データではなく次元 d とビット幅 b にのみ依存する。
非対称パス設計 -- 書き込みの変換、逆変換のない読み取りのテーブルルックアップ -- は、クエリごとの乗算を102.4倍(数学的アイデンティティ)削減する。
マルチシード評価 (10種 x 3 モデル) により, サインパターン感度は特定のモデル (Qwen2.5-3B) において破滅的な PPL スパイク (Delta > 50) を引き起こすが, 他のモデル (LLaMA-3.1-8B) は完全に安定であることがわかった。
この現象はSpinQuantの質量量子化における回転分散の観測をKVキャッシュ領域に拡張し、その効果は質的に重い。
我々は,根本原因を階層的な標準的不均一性に追従し,ハードウェアコストをゼロにして破滅的なスパイクを排除した勾配のない符号パターン選択(200の候補,8の校正サンプル,1回)を提案する。
すべてのソースコードはhttps://github.com/Axelidea/AXELRAMで入手できる。
関連論文リスト
- ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing [0.0]
我々は,TurboQuant(TQ)を統合したLLMのための新しい3ビット重み量子化フォーマットであるITQ3_S(Interleaved Ternary Quantization -- Specialized)を提案する。
従来の3ビット法では、重み付き重み分布とチャネル間外周による精度の低下が見られた。
ITQ3_Sは、量子化の前にFWHTを介して重み空間を前回転させ、ベクトルにエネルギーを分散させ、ガウス近傍の分布を誘導する。
論文 参考訳(メタデータ) (2026-03-30T00:03:22Z) - Layer-wise QUBO-Based Training of CNN Classifiers for Quantum Annealing [0.0]
本稿では,畳み込みニューラルネットワーク(CNN)の頭部を学習するための,擬似Un Binary Optimization(QUBO)に基づく反復的フレームワークを提案する。
出力毎の分解は、$C$クラス問題を$C$独立QUBOに分割し、それぞれ$(d+1)K$バイナリ変数で、$d$が特徴次元、$K$がビット精度で分割する。
我々は,6つの画像分類ベンチマーク(スコーンディジット,MNIST,Fashion-MNIST,CIFAR-10,EMNIST,KMNIST)の評価を行った。
論文 参考訳(メタデータ) (2026-03-03T13:10:36Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - High-Rate Quantized Matrix Multiplication: Theory and Practice [29.75700570685703]
本研究では,量子化行列乗法(MatMul)の問題点について検討する。
1) 両行列を量子化(重+量子化)しなければならないジェネリック・マトマルと,2) 第二行列が共分散行列$_X$でのみ知られている重みのみの量子化である。
論文 参考訳(メタデータ) (2026-01-23T21:32:44Z) - ButterflyQuant: Ultra-low-bit LLM Quantization through Learnable Orthogonal Butterfly Transforms [21.010238822100135]
大きな言語モデルは巨大なメモリフットプリントを必要とし、コンシューマハードウェアへのデプロイを著しく制限する。
量子化は低い数値精度でメモリを減少させるが、極端な2ビット量子化は、アクティベーションの異常値による破滅的な性能損失に悩まされる。
本研究では,アダマール回転を学習可能なバタフライ変換に置き換えるバタフライ量子化法を提案する。
論文 参考訳(メタデータ) (2025-09-11T17:59:51Z) - SpinQuant: LLM quantization with learned rotations [49.07335692298487]
重み、アクティベーション、KVキャッシュに適用された後トレーニング量子化(PTQ)技術は、大規模言語モデル(LLM)のメモリ使用量、レイテンシ、消費電力を大幅に削減する。
我々は、量子化精度を高めつつ、完全精度のトランスフォーマーアーキテクチャにおいて同一の出力をもたらす、適用可能な回転パラメータ化の集合を同定する。
本研究では,学習した回転行列を最適な量子化ネットワーク精度に組み込む新しい手法であるSpinQuantを提案する。
論文 参考訳(メタデータ) (2024-05-26T02:15:49Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。