Fugu-MT 論文翻訳(概要): Flex Attention: A Programming Model for Generating Optimized Attention Kernels

論文の概要: Flex Attention: A Programming Model for Generating Optimized Attention Kernels

arxiv url: http://arxiv.org/abs/2412.05496v1
Date: Sat, 07 Dec 2024 01:46:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-10 23:11:43.866809
Title: Flex Attention: A Programming Model for Generating Optimized Attention Kernels
Title（参考訳）: Flex Attention: 最適化されたアテンションカーネルを生成するプログラミングモデル
Authors: Juechu Dong, Boyuan Feng, Driss Guessous, Yanbo Liang, Horace He,
Abstract要約: FlexAttentionは、コンパイラ駆動のプログラミングモデルで、数行のPyTorchコードで注目の変種を実装できます。我々は、FlexAttentionが注意変異の簡易な構成を可能にし、注意変異の爆発を解決する方法を実証する。
参考スコア（独自算出の注目度）: 5.489362130813523
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Over the past 7 years, attention has become one of the most important primitives in deep learning. The primary approach to optimize attention is FlashAttention, which fuses the operation together, drastically improving both the runtime and the memory consumption. However, the importance of FlashAttention combined with its monolithic nature poses a problem for researchers aiming to try new attention variants -- a "software lottery". This problem is exacerbated by the difficulty of writing efficient fused attention kernels, resisting traditional compiler-based approaches. We introduce FlexAttention, a novel compiler-driven programming model that allows implementing the majority of attention variants in a few lines of idiomatic PyTorch code. We demonstrate that many existing attention variants (e.g. Alibi, Document Masking, PagedAttention, etc.) can be implemented via FlexAttention, and that we achieve competitive performance compared to these handwritten kernels. Finally, we demonstrate how FlexAttention allows for easy composition of attention variants, solving the combinatorial explosion of attention variants.
Abstract（参考訳）: 過去7年間で、ディープラーニングにおける最も重要なプリミティブの1つに注意が向けられている。注意を最適化するための主要なアプローチはFlashAttentionであり、これは操作を融合させ、ランタイムとメモリ消費の両方を大幅に改善する。しかし、FlashAttentionの重要性とモノリシックな性質が組み合わさって、新しい注目のバリエーション、すなわち"ソフトウェア宝くじ"を試そうとする研究者にとって問題となる。この問題は、従来のコンパイラベースのアプローチに抵抗して、効率よく融合された注目カーネルを書くことの難しさによって悪化している。我々は、新しいコンパイラ駆動プログラミングモデルFlexAttentionを紹介します。既存の注目の亜種(例えば、Alibi、Document Masking、PagedAttentionなど)がFlexAttentionを通じて実装可能であることを実証し、これらの手書きカーネルと比較して競争力のあるパフォーマンスを実現している。最後に、FlexAttentionが注目変数の簡単な構成を可能にし、注意変数の組合せ爆発を解決する方法を示す。

関連論文リスト

TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文参考訳（メタデータ） (2025-03-24T01:47:26Z)
FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference [9.878232553789433]
大規模言語モデル(LLM)は、長時間の推論において計算上の問題に遭遇する。これまでの努力は、固定されたスパース注意パターンや、限られたケースに基づくスパース注意パターンの同定に頼っていた。我々はFlexPrefillを紹介した。FlexPrefillはフレキシブルなスパースプリフィル機構で、スパースアテンションパターンと計算予算をリアルタイムで動的に調整する。
論文参考訳（メタデータ） (2025-02-28T06:34:53Z)
Attention Entropy is a Key Factor: An Analysis of Parallel Context Encoding with Full-attention-based Pre-trained Language Models [49.84163262868945]
大規模言語モデルは、コンテキストモデリングにおける例外的な能力のため、幅広い言語タスクで顕著なパフォーマンスを示している。最も一般的なコンテキストモデリングの方法は、標準的なデコーダのみのトランスフォーマーに見られるように、完全な自己アテンションである。本稿では,コンテキストをサブピースに分割して並列に符号化する並列コンテキスト符号化を提案する。
論文参考訳（メタデータ） (2024-12-21T09:04:51Z)
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T15:55:59Z)
An end-to-end attention-based approach for learning on graphs [8.552020965470113]
グラフ上で学習するためのトランスフォーマーベースのアーキテクチャは、効果的な学習メカニズムとして注目によって動機付けられている。本稿では,エンコーダとアテンションプーリング機構を組み合わせた,純粋に注意に基づくアプローチを提案する。その単純さにもかかわらず、このアプローチは微調整されたメッセージパッシングベースラインよりも優れており、最近70以上のノードとグラフレベルのタスクでトランスフォーマーベースのメソッドが提案されている。
論文参考訳（メタデータ） (2024-02-16T16:20:11Z)
FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文参考訳（メタデータ） (2023-08-01T10:37:12Z)
Faster Causal Attention Over Large Sequences Through Sparse Flash Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文参考訳（メタデータ） (2023-06-01T21:33:59Z)
Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-09T17:46:22Z)
Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-08T17:00:26Z)
Bayesian Attention Modules [65.52970388117923]
実装や最適化が容易な,スケーラブルな注目バージョンを提案する。本実験は,提案手法が対応するベースラインに対して一貫した改善をもたらすことを示す。
論文参考訳（メタデータ） (2020-10-20T20:30:55Z)
Gaussian Constrained Attention Network for Scene Text Recognition [16.485898019983797]
既存の注意機構は注意拡散の問題に直面しており、モデルが特定の特徴領域に焦点を絞らない可能性がある。本稿では,新しいガウス制約リファインメントモジュールを組み込んだ2次元アテンションベース手法を提案する。このように、注意重みはより集中し、注意に基づく認識ネットワークはより良いパフォーマンスを達成する。
論文参考訳（メタデータ） (2020-10-19T01:55:30Z)
Learning fine-grained search space pruning and heuristics for combinatorial optimization [5.72274610208488]
本稿では,機械学習技術を利用して正確な最適化アルゴリズムをスケールアップするフレームワークを提案する。我々のフレームワークは、問題インスタンスのサイズを減らすために、要素を刈り取るという比較的単純なタスクを学習します。我々のフレームワークは入力グラフのかなりの部分を取り除き、なおも最大傾きのほとんどを検出可能であることを示す。
論文参考訳（メタデータ） (2020-01-05T13:10:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。