論文の概要: Flashlight: PyTorch Compiler Extensions to Accelerate Attention Variants
- arxiv url: http://arxiv.org/abs/2511.02043v1
- Date: Mon, 03 Nov 2025 20:25:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.672538
- Title: Flashlight: PyTorch Compiler Extensions to Accelerate Attention Variants
- Title(参考訳): Flashlight: 注意変数を高速化するPyTorchコンパイラ拡張
- Authors: Bozhi You, Irene Wang, Zelal Su Mustafaoglu, Abhinav Jangda, Angélica Moreira, Roshan Dathathri, Divya Mahajan, Keshav Pingali,
- Abstract要約: PyTorchエコシステム内のコンパイラネイティブフレームワークであるFlashlightを紹介します。
任意のアテンションベースのプログラムのために、融合したFlashAttentionスタイルのカーネルを自動的に生成する。
この結果から,Flashlight は FlexAttention と競合する,あるいは優れた性能のカーネルを生成できることがわかった。
- 参考スコア(独自算出の注目度): 2.9955129797385482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bad charactors when submitting to arXiv: Attention is a fundamental building block of large language models (LLMs), so there have been many efforts to implement it efficiently. For example, FlashAttention leverages tiling and kernel fusion to optimize attention. Recently, a number of variants of attention have been introduced to enhance model quality or efficiency. Supporting them efficiently remains difficult since they usually require specialized kernels or hand-tuned implementations. FlexAttention recently addressed part of this gap by using static programming templates to support FlashAttention-like kernels for a subset of attention variants. In this paper, we introduce Flashlight, a compiler-native framework within the PyTorch ecosystem that automatically generates fused, FlashAttention-style kernels for arbitrary attention-based programs, without relying on static templates or predefined kernel specializations. Flashlight leverages PyTorch's compilation workflow to fuse and tile attention computations transparently, enabling efficient execution for diverse attention patterns. Not only does it support all variants expressible in the FlexAttention model but it also handles more general, data-dependent attention formulations that are beyond the capabilities of FlexAttention. Our results show that Flashlight produces kernels with competitive or superior performance to FlexAttention, while offering the flexibility of native PyTorch code, enabling developers to rapidly explore new attention models without sacrificing performance.
- Abstract(参考訳): 注意は大きな言語モデル(LLM)の基本的なビルディングブロックであるため、効率的に実装するための多くの努力が続けられています。
例えば、FlashAttentionは注意を最適化するためにタイリングとカーネル融合を利用する。
近年,モデルの品質向上や効率向上のために,多種多様な注目が寄せられている。
通常、特別なカーネルや手作業による実装を必要とするため、効率的なサポートは難しいままである。
FlexAttentionはFlashAttentionのようなカーネルをサポートするために静的なプログラミングテンプレートを使用することで、このギャップの一部に対処した。
本稿では,PyTorchエコシステム内のコンパイラネイティブなフレームワークであるFlashlightを紹介し,静的テンプレートや事前に定義されたカーネルの特殊化に頼ることなく,任意のアテンションベースのプログラムに対して,融合したFlashAttentionスタイルのカーネルを自動的に生成する。
Flashlightは、PyTorchのコンパイルワークフローを利用して、透過的な注意計算をフューズしタイル状にすることで、多様な注意パターンの効率的な実行を可能にする。
FlexAttentionモデルで表現可能なすべての変種をサポートするだけでなく、FlexAttentionの能力を超えた、より一般的な、データに依存したアテンションの定式化も処理します。
この結果から,Flashlight は FlexAttention よりも競合的あるいは優れた性能を持つカーネルを生成すると同時に,ネイティブな PyTorch コードの柔軟性を提供する。
関連論文リスト
- FlashFormer: Whole-Model Kernels for Efficient Low-Batch Inference [42.19497037894398]
FlashFormerは、トランスフォーマーベースの大規模言語モデルの単一バッチ推論を高速化するための概念実証カーネルである。
我々は既存の最先端推論カーネルと比較して非自明なスピードアップを観察する。
論文 参考訳(メタデータ) (2025-05-28T18:19:30Z) - FlashBias: Fast Computation of Attention with Bias [70.44379606190569]
偏見による注意は、視覚、言語、タンパク質の折り畳みやその他の先進的な科学モデルに広く展開されてきた。
これは、FlashAttentionのようなアクセラレーターの速度の根底にある、固く融合したメモリ計算パイプラインを破壊します。
本稿では,低ランク圧縮センシング理論に基づくFlashBiasを提案する。
論文 参考訳(メタデータ) (2025-05-17T15:12:50Z) - TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。
TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。
我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-04-24T14:08:49Z) - Flex Attention: A Programming Model for Generating Optimized Attention Kernels [5.489362130813523]
FlexAttentionは、コンパイラ駆動のプログラミングモデルで、数行のPyTorchコードで注目の変種を実装できます。
我々は、FlexAttentionが注意変異の簡易な構成を可能にし、注意変異の爆発を解決する方法を実証する。
論文 参考訳(メタデータ) (2024-12-07T01:46:38Z) - Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。