論文の概要: FlashBias: Fast Computation of Attention with Bias
- arxiv url: http://arxiv.org/abs/2505.12044v2
- Date: Tue, 21 Oct 2025 09:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:05.927909
- Title: FlashBias: Fast Computation of Attention with Bias
- Title(参考訳): FlashBias: バイアスによる注意の高速計算
- Authors: Haixu Wu, Minghao Guo, Yuezhou Ma, Yuanxu Sun, Jianmin Wang, Wojciech Matusik, Mingsheng Long,
- Abstract要約: 偏見による注意は、視覚、言語、タンパク質の折り畳みやその他の先進的な科学モデルに広く展開されてきた。
これは、FlashAttentionのようなアクセラレーターの速度の根底にある、固く融合したメモリ計算パイプラインを破壊します。
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
- 参考スコア(独自算出の注目度): 70.44379606190569
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention with bias, which extends standard attention by introducing prior knowledge as an additive bias matrix to the query-key scores, has been widely deployed in vision, language, protein-folding and other advanced scientific models, underscoring its status as a key evolution of this foundational module. However, introducing bias terms creates a severe efficiency bottleneck in attention computation. It disrupts the tightly fused memory-compute pipeline that underlies the speed of accelerators like FlashAttention, thereby stripping away most of their performance gains and leaving biased attention computationally expensive. Surprisingly, despite its common usage, targeted efficiency optimization for attention with bias remains absent, which seriously hinders its application in complex tasks. Diving into the computation of FlashAttention, we prove that its optimal efficiency is determined by the rank of the attention weight matrix. Inspired by this theoretical result, this paper presents FlashBias based on the low-rank compressed sensing theory, which can provide fast-exact computation for many widely used attention biases and a fast-accurate approximation for biases in general formalizations. FlashBias can fully take advantage of the extremely optimized matrix multiplication operation in modern GPUs, achieving 1.5$\times$ speedup for Pairformer in AlphaFold 3, and over 2$\times$ speedup for attention with bias in vision and language models without loss of accuracy. Code is available at this repository: https://github.com/thuml/FlashBias.
- Abstract(参考訳): クエリキースコアに対する付加的バイアス行列として事前知識を導入することにより、偏見による注意は、視覚、言語、タンパク質の折り畳み、その他の先進的な科学モデルに広く展開され、基礎モジュールの重要な進化としての地位が強調されている。
しかし、バイアス項の導入は、注意計算において深刻な効率のボトルネックを生じさせる。
これにより、FlashAttentionのようなアクセラレーターの速度を下げ、パフォーマンス向上のほとんどを取り除き、偏った注意を計算的に高価なものにする、厳格に融合したメモリ計算パイプラインが破壊される。
意外なことに、一般的に使われているにもかかわらず、偏見のある注意のための最適化対象の効率性は依然として欠落しており、複雑なタスクにおけるその適用を著しく妨げている。
FlashAttentionの計算に潜り、その最適効率は注目重み行列のランクによって決定されることを示す。
この理論結果から着想を得た本論文では,多くの広く使用されている注目バイアスに対する高速エクサクサクソン計算と,一般的な形式化におけるバイアスに対する高速な近似を提供する,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
FlashBiasは、最新のGPUで非常に最適化された行列乗算演算をフル活用でき、AlphaFold 3のPairformerの1.5$\times$スピードアップ、そして2$\times$スピードアップを達成した。
コードは、このリポジトリで入手できる。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Accelerating Prefilling for Long-Context LLMs via Sparse Pattern Sharing [4.7924863950812995]
スパースアテンション手法は、長文推論のプレフィルフェーズを高速化するために、注意対象の空間性を利用する。
本稿では,頭部に共通する類似の注意パターンを共有する,高精度なスパースアテンション機構を提案する。
本手法は,少数の頭部のみに注意を払いながら,実際のパターンを効果的に把握する。
論文 参考訳(メタデータ) (2025-05-26T06:48:53Z) - Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。
本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。
1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文 参考訳(メタデータ) (2025-05-16T13:48:33Z) - Attention Condensation via Sparsity Induced Regularized Training [0.0]
自己注意は、コンテキストウィンドウが拡大するにつれて、トランスフォーマーの推論時間を支配する。
我々は,大規模言語モデルにおける注意分散の理論的枠組みを拡張した。
カスタマイズされた損失関数は、注目行列の上位要素の数を制限することで、空間性を強制するように設計されている。
論文 参考訳(メタデータ) (2025-03-03T14:09:13Z) - Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。
本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。
ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文 参考訳(メタデータ) (2024-06-22T07:00:43Z) - How Sparse Attention Approximates Exact Attention? Your Attention is Naturally $n^C$-Sparse [9.552839922307587]
スパース注意(英: Sparse Attention)とは、標準的な注意計算と準四分法的な複雑性を近似する手法である。
KVキャッシュのプルーニング、スパースベースの高速注意、スパーストランスフォーマーといったテクニックのバリエーションは、効率的なLLM(Large Language Models)デプロイメントに広く利用されている。
論文 参考訳(メタデータ) (2024-04-03T12:37:34Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Wave Propagation of Visual Stimuli in Focus of Attention [77.4747032928547]
周囲の視覚環境の変化に対する迅速な反応は、計算資源を視覚領域の最も関連する場所に再配置する効率的な注意機構を必要とする。
本研究は, 営巣動物が提示する有効性と効率性を示す, 生物学的に有望な注目焦点モデルを提案する。
論文 参考訳(メタデータ) (2020-06-19T09:33:21Z) - Focus of Attention Improves Information Transfer in Visual Features [80.22965663534556]
本稿では,真のオンライン環境下での視覚情報伝達のための教師なし学習に焦点を当てた。
エントロピー項の計算は、エントロピー項のオンライン推定を行う時間的プロセスによって行われる。
入力確率分布をよりよく構成するために,人間のような注目モデルを用いる。
論文 参考訳(メタデータ) (2020-06-16T15:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。