論文の概要: AdaSplash: Adaptive Sparse Flash Attention
- arxiv url: http://arxiv.org/abs/2502.12082v1
- Date: Mon, 17 Feb 2025 17:56:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:22.354771
- Title: AdaSplash: Adaptive Sparse Flash Attention
- Title(参考訳): AdaSplash: 適応的なスパースFlashアテンション
- Authors: Nuno Gonçalves, Marcos Treviso, André F. T. Martins,
- Abstract要約: AdaSplashはGPU最適化アルゴリズムの効率と$alpha$-entmaxの空間的利点を組み合わせたアルゴリズムである。
AdaSplashは、既存の$alpha$-entmax実装と比較して、ランタイムとメモリ効率を大幅に改善している。
- 参考スコア(独自算出の注目度): 20.28859850361068
- License:
- Abstract: The computational cost of softmax-based attention in transformers limits their applicability to long-context tasks. Adaptive sparsity, of which $\alpha$-entmax attention is an example, offers a flexible data-dependent alternative, but existing implementations are inefficient and do not leverage the sparsity to obtain runtime and memory gains. In this work, we propose AdaSplash, which combines the efficiency of GPU-optimized algorithms with the sparsity benefits of $\alpha$-entmax. We first introduce a hybrid Halley-bisection algorithm, resulting in a 7-fold reduction in the number of iterations needed to compute the $\alpha$-entmax transformation. Then, we implement custom Triton kernels to efficiently handle adaptive sparsity. Experiments with RoBERTa and ModernBERT for text classification and single-vector retrieval, along with GPT-2 for language modeling, show that our method achieves substantial improvements in runtime and memory efficiency compared to existing $\alpha$-entmax implementations. It approaches -- and in some cases surpasses -- the efficiency of highly optimized softmax implementations like FlashAttention-2, enabling long-context training while maintaining strong task performance.
- Abstract(参考訳): 変圧器におけるソフトマックスに基づく注意の計算コストは、長文タスクの適用性を制限する。
Adaptive Sparsityは、$\alpha$-entmaxの例で、フレキシブルなデータ依存の代替手段を提供するが、既存の実装は非効率であり、実行時とメモリゲインを得るためにスパーシを利用できない。
本稿では,GPU最適化アルゴリズムの効率と$\alpha$-entmaxの空間的利点を組み合わせたAdaSplashを提案する。
最初にハイブリッドハレー分割アルゴリズムを導入し,$\alpha$-entmax変換の計算に必要な繰り返し回数を7倍に削減した。
そして、適応的な間隔を効率的に扱うために、カスタムのTritonカーネルを実装します。
テキスト分類と単一ベクトル検索のためのRoBERTaとModernBERTの実験は、言語モデリングのためのGPT-2とともに、既存の$\alpha$-entmax実装と比較して、実行時およびメモリ効率を大幅に改善したことを示す。
FlashAttention-2のような高度に最適化されたソフトマックス実装の効率を -- 越えて、強いタスクパフォーマンスを維持しながら、長時間のコンテキストトレーニングを可能にします。
関連論文リスト
- Faster WIND: Accelerating Iterative Best-of-$N$ Distillation for LLM Alignment [81.84950252537618]
本稿では,反復的BONDと自己プレイアライメントの統一的なゲーム理論接続を明らかにする。
WINレート支配(WIN rate Dominance, WIND)という新しいフレームワークを構築し, 正規化利率支配最適化のためのアルゴリズムを多数提案する。
論文 参考訳(メタデータ) (2024-10-28T04:47:39Z) - Simultaneous Computation and Memory Efficient Zeroth-Order Optimizer for Fine-Tuning Large Language Models [33.911521719528686]
微調整は、大きな言語モデルを下流タスクに適応させるには強力だが、多くの場合、大きなメモリ使用量をもたらす。
有望なアプローチはゼロ階勾配 (ZO) を使うことであり、これは第一階勾配 (FO) を置き換えると見積もられている。
本稿では,レイヤワイドスパース計算とメモリ効率の高いZO,LeZOを提案する。
論文 参考訳(メタデータ) (2024-10-13T12:47:37Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z) - Accelerated First-Order Optimization under Nonlinear Constraints [73.2273449996098]
我々は、制約付き最適化のための一階アルゴリズムと非滑らかなシステムの間で、新しい一階アルゴリズムのクラスを設計する。
これらのアルゴリズムの重要な性質は、制約がスパース変数の代わりに速度で表されることである。
論文 参考訳(メタデータ) (2023-02-01T08:50:48Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - Two-step Lookahead Bayesian Optimization with Inequality Constraints [21.703234193908038]
本稿では,2段階の制約付きベイズ最適化獲得関数 (2-OPT-C) を提案する。
数値実験では、2-OPT-Cは従来の手法よりも2倍以上のクエリ効率が向上し、場合によっては10倍以上のクエリ効率が向上する。
論文 参考訳(メタデータ) (2021-12-06T07:40:54Z) - Adapting to Misspecification in Contextual Bandits [82.55565343668246]
我々は、$varepsilon$-misspecified contextual banditsに対して、新しいオラクル効率アルゴリズム群を導入する。
我々は、未知の不特定値に対して最適な$O(dsqrtT + varepsilonsqrtdT)$ regret boundを達成する最初のアルゴリズムを得る。
論文 参考訳(メタデータ) (2021-07-12T21:30:41Z) - Minimax Optimization with Smooth Algorithmic Adversaries [59.47122537182611]
対戦相手が展開するスムーズなアルゴリズムに対して,Min-playerの新しいアルゴリズムを提案する。
本アルゴリズムは,制限周期のない単調進行を保証し,適切な勾配上昇数を求める。
論文 参考訳(メタデータ) (2021-06-02T22:03:36Z) - Easy and Efficient Transformer : Scalable Inference Solution For large
NLP mode [14.321889138798072]
本稿では,超大規模事前学習モデル最適化手法を提案する。
推論エンジンとして Easy and Efficient Transformer (EET) が提案されている。
EETは、コンテキストの長さに応じて1.5-15倍のスピードアップを達成します。
論文 参考訳(メタデータ) (2021-04-26T11:00:56Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。