論文の概要: Open-TQ-Metal: Fused Compressed-Domain Attention for Long-Context LLM Inference on Apple Silicon
- arxiv url: http://arxiv.org/abs/2604.16957v1
- Date: Sat, 18 Apr 2026 10:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.260182
- Title: Open-TQ-Metal: Fused Compressed-Domain Attention for Long-Context LLM Inference on Apple Silicon
- Title(参考訳): Open-TQ-Metal: Apple Silicon上でのLLM推論のための圧縮領域の融合
- Authors: Sai Vegasena,
- Abstract要約: 我々は、Apple Siliconに融合圧縮ドメインアテンションの最初の実装であるOpen-TQ-Metalを紹介する。
Llama 3.1 70Bの128Kコンテクスト推論を可能にする。
Open-TQ-MetalはKVキャッシュをオンザフライでInt4に量子化し、圧縮された表現に直接注意を計算する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Open-TQ-Metal, the first implementation of fused compressed-domain attention on Apple Silicon, enabling 128K-context inference for Llama 3.1 70B on a single 64GB consumer Mac -- a configuration impossible with all existing inference frameworks. Open-TQ-Metal quantizes the KV cache to int4 on the fly and computes attention directly on the compressed representation via custom Metal compute shaders, eliminating all intermediate dequantization matrices. Across 330 experiments spanning two model families (Gemma 4 31B and Llama 3.1 70B), the fused sdpa_int4 kernel achieves 48x attention speedup at 128K context over the dequantize-then-attend baseline, reduces KV cache memory from 40 GB to 12.5 GB (3.2x compression), and maintains identical top-1 token predictions to FP16 inference. We further provide the first cross-architecture analysis of KV cache quantization methods, revealing that the attention scale factor -- not model size -- determines whether angular quantization schemes like PolarQuant succeed or fail, with Gemma 4's attn_scale=1.0 amplifying directional error 25-100x more than Llama's standard 1/sqrt(d) scaling.
- Abstract(参考訳): 我々は,64GBのコンシューマMac上で,Llama 3.1 70Bの128Kコンテキスト推論を可能にする,Apple Siliconへの融合圧縮ドメインアテンションの最初の実装であるOpen-TQ-Metalを紹介した。
Open-TQ-MetalはKVキャッシュをオンザフライでInt4に量子化し、カスタムのMetal計算シェーダを介して圧縮された表現に直接注意を計算し、すべての中間量子化行列を除去する。
2つのモデルファミリ(Gemma 4 31BとLlama 3.1 70B)にまたがる330の実験では、融合したsdpa_int4カーネルは128Kのコンテキストで48倍の注目スピードアップを実現し、KVキャッシュメモリを40GBから12.5GB(3.2倍圧縮)に削減し、FP16推論と同じトップ1トークン予測を維持している。
さらに,KVキャッシュ量子化法の最初のクロスアーキテクチャ解析を行い,PolaQuantのような角量子化スキームが成功するか失敗するかを,Llamaの標準1/sqrt(d)スケーリングよりも25-100倍の方向誤差を増幅するGemma 4のattn_scale=1.0で決定することを明らかにした。
関連論文リスト
- MoE-nD: Per-Layer Mixture-of-Experts Routing for Multi-Axis KV Cache Compression [7.208745673318648]
既存の圧縮法は、それぞれ4次元KVテンソルの1軸に作用する。
それぞれの圧縮操作に対して異なる層が非常に異なる応答を示す。
そこで我々は,各レイヤを個別にルーティングするMix-of-expertsフレームワークであるMoE-nDを提案する。
論文 参考訳(メタデータ) (2026-04-20T01:20:26Z) - Quantization Dominates Rank Reduction for KV-Cache Compression [0.0]
量子化は、モデルと圧縮レベルに応じて、4-364 PPLのランク低下を一貫して上回る。
我々は、ソフトマックスフィッシャー計量の下で、投射損傷が1方向に3 x 2 (2b) の量子化損傷を超える結果によってこれを定式化する。
論文 参考訳(メタデータ) (2026-04-13T14:06:18Z) - ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing [0.0]
我々は,TurboQuant(TQ)を統合したLLMのための新しい3ビット重み量子化フォーマットであるITQ3_S(Interleaved Ternary Quantization -- Specialized)を提案する。
従来の3ビット法では、重み付き重み分布とチャネル間外周による精度の低下が見られた。
ITQ3_Sは、量子化の前にFWHTを介して重み空間を前回転させ、ベクトルにエネルギーを分散させ、ガウス近傍の分布を誘導する。
論文 参考訳(メタデータ) (2026-03-30T00:03:22Z) - Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study [0.0]
AMD Instinct MI325X GPUにおけるLCM推定のクロスアーキテクチャ評価
3つのアーキテクチャファミリにまたがる235Bから1兆のパラメータにまたがる4つのモデルのベンチマーク。
論文 参考訳(メタデータ) (2026-02-27T13:21:48Z) - Agent Memory Below the Prompt: Persistent Q4 KV Cache for Multi-Agent LLM Inference on Edge Devices [0.0]
エッジデバイス上のマルチエージェントLLMシステムは、メモリ管理の問題に直面している。
10.2GBのキャッシュ予算を持つApple M4 Proでは、FP16の8Kコンテキストに適合するエージェントは3つしかない。
我々は、各エージェントのKVキャッシュを4ビットの量子化フォーマットでディスクに永続化することで、この問題に対処する。
論文 参考訳(メタデータ) (2026-02-17T05:46:20Z) - QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving [52.31791050376249]
量子化は大規模言語モデル(LLM)の推論を加速させる。
4ビット重み、8ビットアクティベーション、4ビットKVキャッシュを備えたW4A8KV4量子化アルゴリズムQoQを導入する。
QServeは、Llama-3-8BをA100で1.2倍、L40Sで1.4倍、Qwen-721.5BをA100で2.4倍、L40Sで3.5倍、達成可能な最大機能を改善する。
論文 参考訳(メタデータ) (2024-05-07T17:59:30Z) - KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization [67.74400574357472]
LLMは、大きなコンテキストウィンドウを必要とするアプリケーションでの利用が増えており、この大きなコンテキストウィンドウでは、KVキャッシュのアクティベーションが推論時のメモリ消費の主要な要因として表面化している。
量子化はKVキャッシュのアクティベーションを圧縮する上で有望な手法であるが、既存のソリューションは4ビット以下の精度でアクティベーションを正確に表現できない。
我々の研究であるKVQuantは、いくつかの新しい手法を取り入れることで、低精度のKVキャッシュ量子化を容易にする。
論文 参考訳(メタデータ) (2024-01-31T18:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。