論文の概要: BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.09582v1
- Date: Tue, 10 Mar 2026 12:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.304129
- Title: BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers
- Title(参考訳): バイナリアテンション:視覚・拡散変換器用1ビットQKアテンション
- Authors: Chaodong Xiao, Zhengqiang Zhang, Lei Zhang,
- Abstract要約: 注意のバイナライゼーションは,本質的な類似性関係を保ち,バイナリアテンションを提案する。
学習可能なバイアスを組み込むことで1ビット量子化の下での固有情報損失を軽減し、エンドツーエンドの加速を可能にする。
我々の研究は、低ビットビジョンと拡散トランスフォーマーのフロンティアを推し進め、完全精度の注意に対する高効率で効果的な代替手段を提供する。
- 参考スコア(独自算出の注目度): 13.600791786470841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have achieved widespread and remarkable success, while the computational complexity of their attention modules remains a major bottleneck for vision tasks. Existing methods mainly employ 8-bit or 4-bit quantization to balance efficiency and accuracy. In this paper, with theoretical justification, we indicate that binarization of attention preserves the essential similarity relationships, and propose BinaryAttention, an effective method for fast and accurate 1-bit qk-attention. Specifically, we retain only the sign of queries and keys in computing the attention, and replace the floating dot products with bit-wise operations, significantly reducing the computational cost. We mitigate the inherent information loss under 1-bit quantization by incorporating a learnable bias, and enable end-to-end acceleration. To maintain the accuracy of attention, we adopt quantization-aware training and self-distillation techniques, mitigating quantization errors while ensuring sign-aligned similarity. BinaryAttention is more than 2x faster than FlashAttention2 on A100 GPUs. Extensive experiments on vision transformer and diffusion transformer benchmarks demonstrate that BinaryAttention matches or even exceeds full-precision attention, validating its effectiveness. Our work provides a highly efficient and effective alternative to full-precision attention, pushing the frontier of low-bit vision and diffusion transformers. The codes and models can be found at https://github.com/EdwardChasel/BinaryAttention.
- Abstract(参考訳): トランスフォーマーは広範に成功し、注目モジュールの計算複雑性は、視覚タスクの大きなボトルネックとして残っている。
既存の手法は主に効率と精度のバランスをとるために8ビットまたは4ビットの量子化を用いる。
本稿では, 理論的正当化とともに, 注意のバイナライゼーションが本質的な類似性関係を保っていることを示すとともに, 高速かつ高精度な1ビットqk-アテンション法であるBinaryAttentionを提案する。
具体的には、注意点の計算におけるクエリとキーのサインのみを保持し、浮動小数点積をビット演算で置き換え、計算コストを大幅に削減する。
学習可能なバイアスを組み込むことで1ビット量子化の下での固有情報損失を軽減し、エンドツーエンドの加速を可能にする。
注意の正確さを維持するため、我々は量子化学習と自己蒸留技術を採用し、符号整合性を確保しつつ量子化誤差を軽減した。
BinaryAttentionは、A100 GPU上のFlashAttention2よりも2倍以上高速である。
ビジョントランスフォーマーと拡散トランスフォーマーベンチマークの広範な実験は、バイナリアテンションが完全精度の注意を越え、その有効性を検証していることを示している。
我々の研究は、低ビットビジョンと拡散トランスフォーマーのフロンティアを推し進め、完全精度の注意に対する高効率で効果的な代替手段を提供する。
コードとモデルはhttps://github.com/EdwardChasel/BinaryAttentionにある。
関連論文リスト
- QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [67.15451442018258]
拡散変換器は素晴らしいビデオ生成能力を示すが、その計算とメモリの禁止コストは実際の展開を妨げる。
モデル量子化とアテンションスパシフィケーションは圧縮に有望な2つの方向であるが、それぞれがアグレッシブ圧縮の下で深刻な性能劣化を被っている。
モデル量子化と注意散布を統合した統合フレームワークである textbfQuantSparse を提案する。
論文 参考訳(メタデータ) (2025-09-28T06:49:44Z) - FlashBias: Fast Computation of Attention with Bias [70.44379606190569]
偏見による注意は、視覚、言語、タンパク質の折り畳みやその他の先進的な科学モデルに広く展開されてきた。
これは、FlashAttentionのようなアクセラレーターの速度の根底にある、固く融合したメモリ計算パイプラインを破壊します。
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:12:50Z) - Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。
本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T14:23:18Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [34.548270527357126]
本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
論文 参考訳(メタデータ) (2024-10-03T10:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。