論文の概要: Flex Attention: A Programming Model for Generating Optimized Attention Kernels
- arxiv url: http://arxiv.org/abs/2412.05496v1
- Date: Sat, 07 Dec 2024 01:46:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:52:28.894639
- Title: Flex Attention: A Programming Model for Generating Optimized Attention Kernels
- Title(参考訳): Flex Attention: 最適化されたアテンションカーネルを生成するプログラミングモデル
- Authors: Juechu Dong, Boyuan Feng, Driss Guessous, Yanbo Liang, Horace He,
- Abstract要約: FlexAttentionは、コンパイラ駆動のプログラミングモデルで、数行のPyTorchコードで注目の変種を実装できます。
我々は、FlexAttentionが注意変異の簡易な構成を可能にし、注意変異の爆発を解決する方法を実証する。
- 参考スコア(独自算出の注目度): 5.489362130813523
- License:
- Abstract: Over the past 7 years, attention has become one of the most important primitives in deep learning. The primary approach to optimize attention is FlashAttention, which fuses the operation together, drastically improving both the runtime and the memory consumption. However, the importance of FlashAttention combined with its monolithic nature poses a problem for researchers aiming to try new attention variants -- a "software lottery". This problem is exacerbated by the difficulty of writing efficient fused attention kernels, resisting traditional compiler-based approaches. We introduce FlexAttention, a novel compiler-driven programming model that allows implementing the majority of attention variants in a few lines of idiomatic PyTorch code. We demonstrate that many existing attention variants (e.g. Alibi, Document Masking, PagedAttention, etc.) can be implemented via FlexAttention, and that we achieve competitive performance compared to these handwritten kernels. Finally, we demonstrate how FlexAttention allows for easy composition of attention variants, solving the combinatorial explosion of attention variants.
- Abstract(参考訳): 過去7年間で、ディープラーニングにおける最も重要なプリミティブの1つに注意が向けられている。
注意を最適化するための主要なアプローチはFlashAttentionであり、これは操作を融合させ、ランタイムとメモリ消費の両方を大幅に改善する。
しかし、FlashAttentionの重要性とモノリシックな性質が組み合わさって、新しい注目のバリエーション、すなわち"ソフトウェア宝くじ"を試そうとする研究者にとって問題となる。
この問題は、従来のコンパイラベースのアプローチに抵抗して、効率よく融合された注目カーネルを書くことの難しさによって悪化している。
我々は、新しいコンパイラ駆動プログラミングモデルFlexAttentionを紹介します。
既存の注目の亜種(例えば、Alibi、Document Masking、PagedAttentionなど)がFlexAttentionを通じて実装可能であることを実証し、これらの手書きカーネルと比較して競争力のあるパフォーマンスを実現している。
最後に、FlexAttentionが注目変数の簡単な構成を可能にし、注意変数の組合せ爆発を解決する方法を示す。
関連論文リスト
- Attention Entropy is a Key Factor: An Analysis of Parallel Context Encoding with Full-attention-based Pre-trained Language Models [49.84163262868945]
大規模言語モデルは、コンテキストモデリングにおける例外的な能力のため、幅広い言語タスクで顕著なパフォーマンスを示している。
最も一般的なコンテキストモデリングの方法は、標準的なデコーダのみのトランスフォーマーに見られるように、完全な自己アテンションである。
本稿では,コンテキストをサブピースに分割して並列に符号化する並列コンテキスト符号化を提案する。
論文 参考訳(メタデータ) (2024-12-21T09:04:51Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - An end-to-end attention-based approach for learning on graphs [8.552020965470113]
グラフ上で学習するためのトランスフォーマーベースのアーキテクチャは、効果的な学習メカニズムとして注目によって動機付けられている。
本稿では,エンコーダとアテンションプーリング機構を組み合わせた,純粋に注意に基づくアプローチを提案する。
その単純さにもかかわらず、このアプローチは微調整されたメッセージパッシングベースラインよりも優れており、最近70以上のノードとグラフレベルのタスクでトランスフォーマーベースのメソッドが提案されている。
論文 参考訳(メタデータ) (2024-02-16T16:20:11Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。
本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-20T20:30:55Z) - Learning fine-grained search space pruning and heuristics for
combinatorial optimization [5.72274610208488]
本稿では,機械学習技術を利用して正確な最適化アルゴリズムをスケールアップするフレームワークを提案する。
我々のフレームワークは、問題インスタンスのサイズを減らすために、要素を刈り取るという比較的単純なタスクを学習します。
我々のフレームワークは入力グラフのかなりの部分を取り除き、なおも最大傾きのほとんどを検出可能であることを示す。
論文 参考訳(メタデータ) (2020-01-05T13:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。