論文の概要: MonarchAttention: Zero-Shot Conversion to Fast, Hardware-Aware Structured Attention
- arxiv url: http://arxiv.org/abs/2505.18698v1
- Date: Sat, 24 May 2025 13:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.600141
- Title: MonarchAttention: Zero-Shot Conversion to Fast, Hardware-Aware Structured Attention
- Title(参考訳): MonarchAttention: 高速でハードウェア対応の構造的注意へのゼロショット変換
- Authors: Can Yaras, Alec S. Xu, Pierre Abillama, Changwoo Lee, Laura Balzano,
- Abstract要約: そこで本研究では,モナール行列を用いた準四次的注意近似手法を提案する。
MonarchAttentionはどちらも転送可能で、追加のトレーニングなしでパフォーマンス損失を最小化し、ハードウェア効率が向上する。
視覚や言語問題における多様なタスクやアーキテクチャに対するモナーキアテンションの質を実証する。
- 参考スコア(独自算出の注目度): 6.745825870346853
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have achieved state-of-the-art performance across various tasks, but suffer from a notable quadratic complexity in sequence length due to the attention mechanism. In this work, we propose MonarchAttention -- a novel approach to sub-quadratic attention approximation via Monarch matrices, an expressive class of structured matrices. Based on the variational form of softmax, we describe an efficient optimization-based algorithm to compute an approximate projection of softmax attention onto the class of Monarch matrices with $\Theta(N\sqrt{N} d)$ computational complexity and $\Theta(Nd)$ memory/IO complexity. Unlike previous approaches, MonarchAttention is both (1) transferable, yielding minimal performance loss with no additional training, even when replacing every attention layer of the transformer, and (2) hardware-efficient, utilizing the highest-throughput tensor core units on modern GPUs. With optimized kernels, MonarchAttention achieves substantial speed-ups in wall-time over FlashAttention-2: $1.4\times$ for shorter sequences $(N=256)$, $4.5\times$ for medium-length sequences $(N=4K)$, and $8.2\times$ for longer sequences $(N=16K)$. We demonstrate the quality of MonarchAttention on diverse tasks and architectures in vision and language problems, showing that it flexibly and accurately approximates softmax attention in a variety of contexts. Our code is available at https://github.com/cjyaras/monarch-attention.
- Abstract(参考訳): トランスフォーマーは様々なタスクにまたがって最先端のパフォーマンスを達成しているが、アテンション機構によるシーケンス長の顕著な2次複雑さに悩まされている。
本研究では,構造行列の表現型クラスであるモナール行列による準四次注意近似の新しいアプローチであるモナールアタテンションを提案する。
ソフトマックスの変分形式に基づいて,$\Theta(N\sqrt{N} d)$複雑性と$\Theta(Nd)$メモリ/IO複雑性を用いて,モナール行列のクラスに対するソフトマックスアテンションの近似予測を計算する。
以前のアプローチとは異なり、MonarchAttentionは(1)転送可能で、トランスフォーマーのすべてのアテンション層を置き換えた場合でも、追加のトレーニングなしでパフォーマンス損失が最小になる。
最適化されたカーネルにより、MonarchAttentionはFlashAttention-2よりもウォールタイムで大幅に高速化される:$(N=256)$,$4.5\times$ for medium-length sequences $(N=4K)$, and 8,2\times$ for longer sequences $(N=16K)$.4\times$
視覚や言語問題における多様なタスクやアーキテクチャに対するモナーキ注意の質を実証し,様々な文脈において柔軟かつ正確にソフトマックスの注意を近似することを示した。
私たちのコードはhttps://github.com/cjyaras/monarch-attention.comで利用可能です。
関連論文リスト
- Conv-Basis: A New Paradigm for Efficient Attention Inference and Gradient Computation in Transformers [16.046186753149]
最近のLarge Language Models(LLM)におけるトランスフォーマーの成功の鍵は自己認識メカニズムである
我々は、注目行列の畳み込み様構造を利用して、畳み込み行列を用いた注目の効率的な近似法を開発する。
トランスフォーマーモデルにおけるアテンション計算を加速するための新しいパラダイムが、より長いコンテキストへのアプリケーションを支援することを願っています。
論文 参考訳(メタデータ) (2024-05-08T17:11:38Z) - One Pass Streaming Algorithm for Super Long Token Attention
Approximation in Sublinear Space [11.735802740426294]
注意計算は、$O(n2)$の時間複雑性と$O(n2)$の空間複雑性を同時に行う。
ストリーミング方式で1パスのデータのみを読み取る新しいアルゴリズムを導入する。
特に,本アルゴリズムは,超長期トークンを用いたメモリ効率の優れた性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:35:00Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Monarch: Expressive Structured Matrices for Efficient and Accurate
Training [64.6871423399431]
大規模なニューラルネットワークは多くのドメインで優れているが、トレーニングや微調整は高価である。
計算やメモリ要件を減らすための一般的なアプローチは、重み付け行列を構造化行列に置き換えることである。
ハードウェア効率のよい行列(Monarch)のクラスを提案する。
論文 参考訳(メタデータ) (2022-04-01T17:37:29Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Streaming Coresets for Symmetric Tensor Factorization [9.181791777532608]
ストリーミング環境でテンソルを効率的に分解する方法を示す。
本稿では,オンラインフィルタリングとカーネル化という2つの新しいアルゴリズム手法を紹介する。
単一トピックモデリング学習におけるアルゴリズムの適用例を示す。
論文 参考訳(メタデータ) (2020-06-01T19:55:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。