Fugu-MT 論文翻訳(概要): FlashBias: Fast Computation of Attention with Bias

論文の概要: FlashBias: Fast Computation of Attention with Bias

arxiv url: http://arxiv.org/abs/2505.12044v1
Date: Sat, 17 May 2025 15:12:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.004456
Title: FlashBias: Fast Computation of Attention with Bias
Title（参考訳）: FlashBias: バイアスによる注意の高速計算
Authors: Haixu Wu, Minghao Guo, Yuezhou Ma, Yuanxu Sun, Jianmin Wang, Wojciech Matusik, Mingsheng Long,
Abstract要約: 本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。 FlashBiasは、最新のGPUで非常に最適化された行列乗算演算をフル活用でき、AlphaFoldの1.5$times$スピードアップ、そして2$times$スピードアップを達成した。
参考スコア（独自算出の注目度）: 77.39043478894504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Attention mechanism has emerged as a foundation module of modern deep learning models and has also empowered many milestones in various domains. Moreover, FlashAttention with IO-aware speedup resolves the efficiency issue of standard attention, further promoting its practicality. Beyond canonical attention, attention with bias also widely exists, such as relative position bias in vision and language models and pair representation bias in AlphaFold. In these works, prior knowledge is introduced as an additive bias term of attention weights to guide the learning process, which has been proven essential for model performance. Surprisingly, despite the common usage of attention with bias, its targeted efficiency optimization is still absent, which seriously hinders its wide applications in complex tasks. Diving into the computation of FlashAttention, we prove that its optimal efficiency is determined by the rank of the attention weight matrix. Inspired by this theoretical result, this paper presents FlashBias based on the low-rank compressed sensing theory, which can provide fast-exact computation for many widely used attention biases and a fast-accurate approximation for biases in general formalization. FlashBias can fully take advantage of the extremely optimized matrix multiplication operation in modern GPUs, achieving 1.5$\times$ speedup for AlphaFold, and over 2$\times$ speedup for attention with bias in vision and language models without loss of accuracy.
Abstract（参考訳）: 注意機構は、現代のディープラーニングモデルの基盤モジュールとして現れ、さまざまな領域における多くのマイルストーンにも権限を与えてきた。さらに、IO対応のスピードアップによるFlashAttentionは、標準注意の効率問題を解決し、その実用性をさらに促進します。標準的注意以外にも、視覚と言語モデルの相対的な位置バイアスやAlphaFoldのペア表現バイアスなど、バイアスを伴う注意も広く存在する。これらの研究において、先行知識は、モデル性能に必須であることが証明された学習過程を導くために注意重み付けの付加バイアス項として導入される。驚くべきことに、バイアスを伴う注意の一般的な使用にもかかわらず、目標とする効率最適化はいまだに欠けており、複雑なタスクにおける幅広い応用を著しく妨げている。 FlashAttentionの計算に潜り、その最適効率は注目重み行列のランクによって決定されることを示す。この理論結果から着想を得た本論文では,多くの広く使用されている注目バイアスに対する高速エクサクサクソン計算と,一般的な形式化におけるバイアスに対する高速な近似を提供する,低ランク圧縮センシング理論に基づくFlashBiasを提案する。 FlashBiasは、最新のGPUで高度に最適化された行列乗算演算をフル活用でき、AlphaFoldの1.5$\times$スピードアップ、そして2$\times$スピードアップを達成した。

関連論文リスト

Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文参考訳（メタデータ） (2025-06-17T01:19:28Z)
Accelerating Prefilling for Long-Context LLMs via Sparse Pattern Sharing [4.7924863950812995]
スパースアテンション手法は、長文推論のプレフィルフェーズを高速化するために、注意対象の空間性を利用する。本稿では,頭部に共通する類似の注意パターンを共有する,高精度なスパースアテンション機構を提案する。本手法は,少数の頭部のみに注意を払いながら,実際のパターンを効果的に把握する。
論文参考訳（メタデータ） (2025-05-26T06:48:53Z)
Delta Attention: Fast and Accurate Sparse Attention Inference by Delta Correction [52.14200610448542]
変圧器は二次的な複雑さを持ち、長いシーケンスに対して高い推論コストとレイテンシをもたらす。本稿では、この分布シフトを修正するためのシンプルで斬新で効果的な手順を提案する。 1Mトークンのプリフィル処理では,Flash Attention 2の32倍の速度で,約98.5%の間隔を維持することができる。
論文参考訳（メタデータ） (2025-05-16T13:48:33Z)
Attention Condensation via Sparsity Induced Regularized Training [0.0]
自己注意は、コンテキストウィンドウが拡大するにつれて、トランスフォーマーの推論時間を支配する。我々は,大規模言語モデルにおける注意分散の理論的枠組みを拡張した。カスタマイズされた損失関数は、注目行列の上位要素の数を制限することで、空間性を強制するように設計されている。
論文参考訳（メタデータ） (2025-03-03T14:09:13Z)
Unveiling and Harnessing Hidden Attention Sinks: Enhancing Large Language Models without Training through Attention Calibration [15.36841874118801]
我々は,大規模言語モデル(LLM)における注意シンクの存在をより深く理解することを目的としている。本研究では,入力適応方式で推論中のハエの注意分布を自動的に最適化する訓練自由注意法(ACT)を提案する。 ACTは、Llama-30Bに適用した場合、異なるデータセット間で平均7.30%の精度向上を達成する。
論文参考訳（メタデータ） (2024-06-22T07:00:43Z)
How Sparse Attention Approximates Exact Attention? Your Attention is Naturally $n^C$-Sparse [9.552839922307587]
スパース注意(英: Sparse Attention)とは、標準的な注意計算と準四分法的な複雑性を近似する手法である。 KVキャッシュのプルーニング、スパースベースの高速注意、スパーストランスフォーマーといったテクニックのバリエーションは、効率的なLLM(Large Language Models)デプロイメントに広く利用されている。
論文参考訳（メタデータ） (2024-04-03T12:37:34Z)
SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-25T14:13:44Z)
Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-20T20:30:55Z)
Wave Propagation of Visual Stimuli in Focus of Attention [77.4747032928547]
周囲の視覚環境の変化に対する迅速な反応は、計算資源を視覚領域の最も関連する場所に再配置する効率的な注意機構を必要とする。本研究は, 営巣動物が提示する有効性と効率性を示す, 生物学的に有望な注目焦点モデルを提案する。
論文参考訳（メタデータ） (2020-06-19T09:33:21Z)
Focus of Attention Improves Information Transfer in Visual Features [80.22965663534556]
本稿では,真のオンライン環境下での視覚情報伝達のための教師なし学習に焦点を当てた。エントロピー項の計算は、エントロピー項のオンライン推定を行う時間的プロセスによって行われる。入力確率分布をよりよく構成するために,人間のような注目モデルを用いる。
論文参考訳（メタデータ） (2020-06-16T15:07:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。