論文の概要: XFP: Quality-Targeted Adaptive Codebook Quantization with Sparse Outlier Separation for LLM Inference
- arxiv url: http://arxiv.org/abs/2605.14844v1
- Date: Thu, 14 May 2026 13:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.854911
- Title: XFP: Quality-Targeted Adaptive Codebook Quantization with Sparse Outlier Separation for LLM Inference
- Title(参考訳): XFP: LLM推論のためのスパースアウトリア分離による品質目標適応型コードブック量子化
- Authors: Thomas Witt,
- Abstract要約: XFPはコードブックのサイズ、アウトリーチ予算、レイヤごとのパッケージを自動的に決定する。
XFPはワークステーションハードウェア上で128 tok/sのシングルストリームデコードに達する。
対象メモリエンベロープに収まらないモデルに対しては、H-Processを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce XFP, a dynamic weight quantizer for LLM inference that inverts the conventional workflow: the operator specifies reconstruction quality floors on per-channel cosine similarity (one strict floor for attention and shared experts, one lazy floor for routed-expert MoE); XFP determines codebook size, outlier budget, and packing per layer automatically -- no Hessian, no calibration data, no manual bit-width selection. Each weight matrix is decomposed into a sparse fp16 outlier residual and a dense sub-byte index tensor into a per-group learned codebook. Two storage modes share one auto-select frontend and one fused decode kernel: V2 (per-channel Lloyd) and V2a (shared library of L=32 codebooks per layer). On Qwen3.5-122B-A10B under V2, XFP reaches 138 tok/s single-stream decode on workstation hardware (RTX PRO 6000 Blackwell, TP=2) at 94.49% GSM8K strict-match (3 seeds, n=3957), and is 49% faster than Marlin INT4 at TP=1. For models that do not fit in the target memory envelope, we present the H-Process: a quality-driven iteration over the two cosine thresholds that finds the operating point at which the model just fits while still producing sensible output. Three constraints define its search space: the operator-set thresholds, an OOM boundary at quantize-on-load, and a garbage boundary in generation (cosine similarity steers; benches verify). On Qwen3.5-397B-A17B (512 routed experts/layer), the H-Process fits the full expert population into 2x96 GB at ~3.4 effective bits and delivers 100.9 tok/s long-output decode at 66.72% GSM8K strict-match on the full 1319-problem set (single seed at submission; multi-seed evaluation in progress), exceeding INT4 with routed-expert pruning on memory, throughput, and accuracy simultaneously.
- Abstract(参考訳): 演算子は、チャネルごとのコサイン類似性(注意と共有の専門家のための厳格なフロア1つ、ルーティングされた専門家のための遅延フロア1つ、ルーティングされたMoEのための遅延フロア1つ)の再構成品質フロアを指定し、XFPはコードブックのサイズ、アウトリーチ予算、各レイヤごとのパッキングを自動的に決定する -- Hessian、キャリブレーションデータなし、手動ビット幅選択なし -- を指示する。
各重み行列はスパースfp16出力残差と高密度なサブバイトインデックステンソルに分解され、グループごとの学習コードブックに分解される。
2つのストレージモードは1つの自動選択フロントエンドと1つの融合デコードカーネル、V2(チャネルごとのロイド)とV2a(レイヤごとのL=32コードブックの共有ライブラリ)を共有している。
V2 下の Qwen3.5-122B-A10B では、XFP はワークステーションハードウェア (RTX PRO 6000 Blackwell, TP=2) で 138 tok/s のシングルストリームデコードに達し、94.49% GSM8K 厳密なマッチ (3 種、n=3957) で TP=1 で Marlin INT4 よりも 49% 高速である。
対象のメモリエンベロープに収まらないモデルに対しては、H-Process: 2つのコサインしきい値に対する品質駆動のイテレーションを提示する。
3つの制約は、演算子セットのしきい値、量子化オンロード時のOOM境界、生成時のガベージバウンダリ(cosine similarity steers; benchs confirmed)である。
Qwen3.5-397B-A17B (512のルーティングされた専門家/層)では、H-Processは2x96 GBの有効ビット(3.4ビット)と100.9 tok/sの長出力デコード(66.72% GSM8K)に適合し、完全な1319プロブレムセット(シングルシード、複数シードの進捗評価、メモリ、スループット、精度を同時に上回るINT4を超える。
関連論文リスト
- LAQuant: A Simple Overhead-free Large Reasoning Model Quantization by Layer-wise Lookahead Loss [8.481133435038839]
大規模な推論モデルは、長い自己回帰復号によって競合レベルの数学と符号化精度に達する。
ウェイト量子化はアクセラレーションの標準ツールであるが、長復号推論ベンチマークでは、代表的なレシピが正確さを失う。
そこで我々はLookAhead Quantization (LAQuant) を提案する。
論文 参考訳(メタデータ) (2026-05-09T07:35:38Z) - FASQ: Flexible Accelerated Subspace Quantization for Calibration-Free LLM Compression [5.385515135626162]
FASQ(Flexible Accelerated Subspace Quantization)は,大規模言語モデルに製品量化を適用するキャリブレーションフリーフレームワークである。
Meta-Llama-3-8Bでは、FASQは4ビット GPTQ と AWQ の精度(67-42%モデルサイズ)を37-42%モデルサイズで上回っている。
論文 参考訳(メタデータ) (2026-04-22T20:03:36Z) - Breaking the KV Cache Bottleneck: Fan Duality Model Achieves O(1) Decode Memory with Superior Associative Recall [0.0]
Fan Duality Modelは、シーケンスモデリングにおけるメモリ効率と連想リコールの間の緊張を解消する。
FDMはシーケンス処理を、長距離パターンを隠蔽状態に圧縮する波動成分と、特定のトークンを取得する粒子成分の2つのコンポーネントに分割する。
本稿では,再帰的なスキャンを凍結し,キャッシュを埋め込みと共に最適化する2段階のトレーニング戦略であるFreeze-Scanを提案する。
論文 参考訳(メタデータ) (2026-04-09T02:00:30Z) - BWTA: Accurate and Efficient Binarized Transformer by Algorithm-Hardware Co-design [71.97035034203275]
バイナライゼーションにおけるゼロ点歪みを解析し,BWTA量子化方式を提案する。
本稿では,Smooth Multi-Stage Quantizationを提案し,レベルワイド・デグラデーション・ストラテジーとMagnitude Alignment Projection Factorを組み合わせた。
実験の結果、BWTAはTransformerベースのモデルに対して、GLUEでは平均3.5%、タスクでは2%未満の精度でフル精度のパフォーマンスにアプローチしていることがわかった。
論文 参考訳(メタデータ) (2026-04-05T04:25:07Z) - ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing [0.0]
我々は,TurboQuant(TQ)を統合したLLMのための新しい3ビット重み量子化フォーマットであるITQ3_S(Interleaved Ternary Quantization -- Specialized)を提案する。
従来の3ビット法では、重み付き重み分布とチャネル間外周による精度の低下が見られた。
ITQ3_Sは、量子化の前にFWHTを介して重み空間を前回転させ、ベクトルにエネルギーを分散させ、ガウス近傍の分布を誘導する。
論文 参考訳(メタデータ) (2026-03-30T00:03:22Z) - Scaling DoRA: High-Rank Adaptation via Factored Norms and Fused Kernels [83.99688944263843]
DoRA(Weight-De Low-Rank Adaptation)は、LoRAを方向から分離することで拡張する。
d_in = 8192 とランク r = 384 では、単一のモジュールのノルムは bf16 で512MB の過渡的なワーキングメモリを必要とする。
因子ノルムは、二乗ノルムを O(d_out r + r2) 中間体を通して計算可能な基底、交差、およびグラマー項に分解し、密積を除去する。
論文 参考訳(メタデータ) (2026-03-23T17:57:24Z) - Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study [0.0]
AMD Instinct MI325X GPUにおけるLCM推定のクロスアーキテクチャ評価
3つのアーキテクチャファミリにまたがる235Bから1兆のパラメータにまたがる4つのモデルのベンチマーク。
論文 参考訳(メタデータ) (2026-02-27T13:21:48Z) - BPDQ: Bit-Plane Decomposition Quantization on a Variable Grid for Large Language Models [56.504879072674015]
本稿では,ビットプレーンとスカラー係数による可変量子化グリッドを構成するビットプレーン分解量子化(BPDQ)を提案する。
BPDQは、1つのGTX 3090上でQwen2.5-72Bを83.85%のGSM8Kの精度で提供できる(ただし16ビットでは90.83%)。
論文 参考訳(メタデータ) (2026-02-04T02:54:37Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。