論文の概要: QFlash: Bridging Quantization and Memory Efficiency in Vision Transformer Attention
- arxiv url: http://arxiv.org/abs/2604.25306v1
- Date: Tue, 28 Apr 2026 07:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.752282
- Title: QFlash: Bridging Quantization and Memory Efficiency in Vision Transformer Attention
- Title(参考訳): QFlash: ビジュアライゼーションにおけるブリッジング量子化とメモリ効率
- Authors: Sehyeon Oh, Yongin Kwon, Jemin Lee,
- Abstract要約: FlashAttentionはタイリングによって効率を向上させるが、オンラインのソフトマックスは数値安定性のために浮動小数点演算に依存している。
整数のみのFlashAttentionの主な障害を3つ特定する。
我々は、整数領域で完全にソフトマックスを実行する、エンドツーエンドの整数FlashAttention設計であるtextitQFlashを提案する。
- 参考スコア(独自算出の注目度): 17.034875973644215
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: FlashAttention improves efficiency through tiling, but its online softmax still relies on floating-point arithmetic for numerical stability, making full quantization difficult. We identify three main obstacles to integer-only FlashAttention: (1) scale explosion during tile-wise accumulation, (2) inefficient shift-based exponential operations on GPUs, and (3) quantization granularity constraints requiring uniform scales for integer comparison. To address these challenges, we propose \textit{QFlash}, an end-to-end integer FlashAttention design that performs softmax entirely in the integer domain and runs as a single Triton kernel. On seven attention workloads from ViT, DeiT, and Swin models, QFlash achieves up to 6.73$\times$ speedup over I-ViT and up to 8.69$\times$ speedup on Swin, while reducing energy consumption by 18.8\% compared to FP16 FlashAttention, without sacrificing Top-1 accuracy on ViT/DeiT and remaining competitive on Swin under per-tensor quantization. Our code is publicly available at https://github.com/EfficientCompLab/qflash.
- Abstract(参考訳): FlashAttentionはタイリングによって効率を向上するが、オンラインのソフトマックスは数値的な安定性のために浮動小数点演算に依存しているため、完全な量子化は困難である。
整数のみのFlashAttentionの主な障害は,(1)タイルワイズ蓄積時のスケール爆発,(2)GPU上の非効率なシフトベース指数演算,(3)整数比較のための均一スケールを必要とする量子化粒度制約の3つである。
これらの課題に対処するために、我々は、整数領域で完全にソフトマックスを実行し、単一のトリトンカーネルとして動作する、エンドツーエンドの整数FlashAttention設計である \textit{QFlash} を提案する。
ViT、DeiT、Swinの7つのアテンションワークロードにおいて、QFlashは最大6.73$\times$I-ViT上でのスピードアップと8.69$\times$Swin上でのスピードアップを実現している。
私たちのコードはhttps://github.com/EfficientCompLab/qflash.comで公開されています。
関連論文リスト
- IntAttention: A Fully Integer Attention Pipeline for Efficient Edge Inference [11.526305104815357]
IntAttentionは、最初の完全整数型、プラグイン・アンド・プレイアテンションパイプラインで、再トレーニングは行わない。
IntAttentionは、スペーサリティ対応クリッピング、32エントリルックアップテーブル近似、直接整数正規化を統合している。
提案手法は,ARMv8 CPU上の従来のINT8アテンションパイプラインよりも最大3.7倍,FP16ベースラインより61%のエネルギー削減を実現している。
論文 参考訳(メタデータ) (2025-11-26T15:46:22Z) - VSA: Faster Video Diffusion with Trainable Sparse Attention [38.37291040904089]
ビデオ拡散トランス (DiTs) のスケーリングは、注意質量の大部分が少数の位置に集中しているにもかかわらず、2次元の注意によって制限される。
私たちはこの観察を、トレーニング可能なハードウェア効率の良いスパースアテンションであるVSAに変換し、Emphbothのトレーニングと推論の完全なアテンションを置き換える。
論文 参考訳(メタデータ) (2025-05-19T17:30:13Z) - FlashBias: Fast Computation of Attention with Bias [70.44379606190569]
偏見による注意は、視覚、言語、タンパク質の折り畳みやその他の先進的な科学モデルに広く展開されてきた。
これは、FlashAttentionのようなアクセラレーターの速度の根底にある、固く融合したメモリ計算パイプラインを破壊します。
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:12:50Z) - INT-FlashAttention: Enabling Flash Attention for INT8 Quantization [16.920037999454625]
INT-FlashAttentionは、FlashAttentionのフォワードワークフローと互換性のある最初の量子化アーキテクチャである。
完全なINT8アクティベーションとGEMM(GeneralMatrix-multiplication)カーネルを備えたINT-FlashAttentionプロトタイプを実装した。
実験の結果、INT-FlashAttentionは標準のFlashAttentionに比べて72%高速な推論速度と82%の量子化誤差を達成した。
論文 参考訳(メタデータ) (2024-09-25T15:02:25Z) - FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision [14.426543629408984]
注意は、大きな言語モデルと長いコンテキストアプリケーションのボトルネックです。
我々はGPUに注意を向ける3つの主要な技術を開発した。
提案手法であるFlashAttention-3は,FP16が最大740 TFLOPs/s(75%利用)に達し,FP8が1.2 PFLOPs/sに到達して,H100 GPU上で1.5-2.0$timesの高速化を実現していることを示す。
論文 参考訳(メタデータ) (2024-07-11T15:44:48Z) - Trio-ViT: Post-Training Quantization and Acceleration for Softmax-Free Efficient Vision Transformer [5.141764719319689]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて、急速に開発され、顕著な性能を実現している。
しかし、その巨大なモデルサイズと集約的な計算により、ViTsの組み込みデバイスへの展開が妨げられ、量子化のような効果的なモデル圧縮手法が要求される。
本稿では,問題となるソフトマックスを排除したTrio-ViTを提案するとともに,低計算量で線形注意を統合できるTrio-ViTを提案し,それに応じてTrio-ViTを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:57:35Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer [56.87383229709899]
我々は、完全量子化視覚変換器(Q-ViT)のための情報修正モジュール(IRM)と分配誘導蒸留法を開発した。
我々の手法は、先行技術よりもはるかに優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-13T04:00:29Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。