論文の概要: ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention
- arxiv url: http://arxiv.org/abs/2605.23081v1
- Date: Thu, 21 May 2026 22:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.124103
- Title: ThriftAttention: Selective Mixed Precision for Long-Context FP4 Attention
- Title(参考訳): ThriftAttention: 長期FP4注意のための選択混合精度
- Authors: Joe Sharratt,
- Abstract要約: 提案するThriftAttentionは,FP4推論効率で約FP16の長文品質を実現する低ビットアテンションバリアントである。
我々は、FP16のクエリキーブロックの5%しか計算できないという長文のベンチマークとモデルファミリで、ThriftAttentionはFP4からFP16のパフォーマンスギャップの89.1%で回復することを示した。
- 参考スコア(独自算出の注目度): 0.12691047660244334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient attention algorithms are critical to mitigate the quadratic cost of attention in long-context workloads. Prior work utilises block-scaled quantisation techniques on Blackwell GPUs to move attention computation to 4-bit precision to accelerate inference. However, these techniques result in significant quality degradation in long-context settings. We show that the output impact of quantisation error is highly non-uniform and increases with the importance of each query-key interaction, concentrating functionally relevant error in a small number of attention blocks that contain the most important tokens. We propose ThriftAttention, a low-bit attention variant that delivers near-FP16 long-context quality at FP4 inference efficiency. This approach proceeds in two stages. First, a heuristic rapidly selects a small number of important query-key block pairs for FP16 precision. Second, the selected blocks are computed in FP16 and the remaining blocks in FP4, with both paths merged via online softmax into a single output. We demonstrate across long-context benchmarks and model families that by computing only 5% of query-key blocks in FP16, ThriftAttention recovers on average 89.1% of the FP4-to-FP16 performance gap. We show ThriftAttention's advantage grows with sequence length, mitigating the systematic FP4 quality degradation observed at longer contexts. The code is available at https://github.com/joesharratt1229/ThriftAttention.
- Abstract(参考訳): 効率的な注意アルゴリズムは、長期業務における注意の二次的コストを軽減するために重要である。
これまでの作業では、Blackwell GPU上のブロックスケールの量子化技術を使用して、アテンション計算を4ビット精度に移動して推論を高速化する。
しかし、これらの手法は長文設定において大幅な品質劣化をもたらす。
量子化エラーの出力効果は,各クエリキーの相互作用の重要性によって大きくなり,最も重要なトークンを含む少数の注意ブロックにおいて機能的に関連性のあるエラーが集中していることを示す。
提案するThriftAttentionは,FP4推論効率で約FP16の長文品質を実現する低ビットアテンションバリアントである。
このアプローチは2段階に進む。
まず、ヒューリスティックはFP16精度のために、少数の重要なクエリキーブロックペアを迅速に選択する。
第2に、選択されたブロックはFP16で計算され、残りのブロックはFP4で計算され、両方のパスはオンラインソフトマックスを介して単一の出力にマージされる。
我々は、FP16のクエリキーブロックの5%しか計算できないという長文のベンチマークとモデルファミリで、ThriftAttentionはFP4からFP16のパフォーマンスギャップの89.1%で回復することを示した。
ThriftAttentionの利点はシーケンス長とともに増大し、より長いコンテキストで観察される系統的なFP4品質劣化を緩和する。
コードはhttps://github.com/joesharratt1229/ThriftAttentionで公開されている。
関連論文リスト
- Attn-QAT: 4-Bit Attention With Quantization-Aware Training [10.003298547571447]
本稿では,4ビット量子化対応トレーニング(QAT)を注目する最初の体系的研究について述べる。
FP4フォワードパスと高精度Flashアテンション(FA)スタイルのバックワードパスを鼻で組み合わせた"ドロップイン"QATが,トレーニングの不安定性につながることがわかった。
我々は、FP4推論カーネルと同様に、Attn-QATを提案し、融合したTritonカーネルを実装した。
論文 参考訳(メタデータ) (2026-02-09T04:46:21Z) - FASA: Frequency-aware Sparse Attention [56.26881872333624]
本稿では,トークンの重要度を動的に予測することで,クエリ対応のトークン消去を実現する新しいフレームワークであるFASAを提案する。
我々の重要な発見は、小さな「支配的」FCの特定可能なサブセットが、常に注目の頭文字と高い文脈の一致を示すことである。
長いコンテキストのタスクのスペクトル全体にわたって、FASAは全てのトークン放出ベースラインを一貫して上回り、ニアオラクル精度を達成する。
論文 参考訳(メタデータ) (2026-02-03T06:09:06Z) - INT v.s. FP: A Comprehensive Study of Fine-Grained Low-bit Quantization Formats [51.72056104795248]
NvidiaのBlackwellアーキテクチャのような現代のAIハードウェアは、低精度浮動小数点(FP)フォーマットをますます受け入れている。
本稿では,FPフォーマットと整数(INT)フォーマットのトレードオフを系統的に検討する。
FPは粗粒度量子化に優れるが、きめ細かい(ブロックワイド)レベルでの比較はよりニュアンスが高い。
論文 参考訳(メタデータ) (2025-10-29T15:11:53Z) - Sparser Block-Sparse Attention via Token Permutation [46.22204775916057]
本稿では,ブロックレベルの空間性を高めるために,注目の置換特性を活用するプラグイン・アンド・プレイ方式であるPermuted Block-Sparse Attention (textbfPBS-Attn)を提案する。
PBS-Attnは、カスタムのpermuted-FlashAttentionカーネルをベースとして、長文プリフィルで最大2.75タイムのエンドツーエンドのスピードアップを実現しています。
論文 参考訳(メタデータ) (2025-10-24T09:11:50Z) - Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization [77.67818998672516]
本研究は,MXFP4とNVFP4の学習後量子化に関する総合的研究である。
本稿では,従来のGPTQ量子化アルゴリズムの変種であるMicro-Rotated-GPTQ(MR-GPTQ)を紹介する。
MR-GPTQは最先端の精度で一致または性能が向上することを示す。
論文 参考訳(メタデータ) (2025-09-27T09:22:21Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。