論文の概要: FLARE: Fast Low-rank Attention Routing Engine
- arxiv url: http://arxiv.org/abs/2508.12594v2
- Date: Wed, 15 Oct 2025 15:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 15:32:13.895748
- Title: FLARE: Fast Low-rank Attention Routing Engine
- Title(参考訳): FLARE: 高速低ランクアテンションルーティングエンジン
- Authors: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara,
- Abstract要約: Fast Low-rank Attention Engine (FLARE) は、固定長の待ち行列を通して注意を誘導する線形複雑自己注意機構である。
FLAREは前例のない問題のサイズにスケールするだけでなく、最先端のニューラルPDEサロゲートよりも精度が高い。
- 参考スコア(独自算出の注目度): 2.9498261840961777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.
- Abstract(参考訳): 自己注意の二次的な複雑さは、大きな非構造化メッシュに対する適用性とスケーラビリティを制限する。
我々は、固定長の待ち行列を通して注意を誘導する線形複雑自己注意機構であるFLARE(Fast Low-rank Attention Routing Engine)を導入する。
各アテンションヘッドは、学習可能なクエリトークンを使用して、入力シーケンスを$M \ll N$トークンの固定長潜在シーケンスに投影することで、$N$トークン間のグローバル通信を実行する。
ボトルネックシーケンスを通して注意をルーティングすることで、FLAREは、$O(NM)$コストで適用可能な低ランクな注意形式を学ぶ。
FLAREは、前例のない問題サイズにスケールするだけでなく、さまざまなベンチマークにまたがる最先端のニューラルPDEサロゲートよりも優れた精度を提供する。
また、さらなる研究を促進するため、新たな追加製造データセットもリリースしました。
私たちのコードはhttps://github.com/vpuri3/FLARE.pyで公開されています。
関連論文リスト
- Trainable Log-linear Sparse Attention for Efficient Diffusion Transformers [36.26426380985327]
Diffusion Transformers (DiTs) は、視覚生成における技術の状態を設定しているが、その二次的な自己注意コストは、長いトークンシーケンスへのスケーリングを制限している。
最近のTop-Kスパースアテンションアプローチは、トークンをブロックワイズ表現に圧縮することで、DiTの計算を減らす。
極長トークン列に対するトレーニング可能なスパースアテンション機構であるログ線形スパースアテンション(LLSA)を導入する。
論文 参考訳(メタデータ) (2025-12-18T14:53:12Z) - Route Experts by Sequence, not by Token [58.92918003265283]
Mixture-of-Experts (MoE)アーキテクチャは、トークンごとに専門家のサブセットだけを活性化することによって、大きな言語モデル(LLM)をスケールする。
標準的なTopKルーティングは、すべてのトークンに同じ固定数の専門家を割り当てる。
トークンレベルからシークエンスレベルにシフトする最小限の修正であるシークエンスレベルTopK(SeqTopK)を提案する。
論文 参考訳(メタデータ) (2025-11-09T18:36:07Z) - R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [80.104336426172]
CoT(Chain-of- Thought)は、大規模言語モデルの問題解決能力を高める。
CoTは長い自己回帰軌道のためにかなりの推論コストを発生させる。
トレーニング不要なハイブリッドデコーディングフレームワークであるR-Stitchを紹介する。
論文 参考訳(メタデータ) (2025-07-23T08:14:36Z) - Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - RaaS: Reasoning-Aware Attention Sparsity for Efficient LLM Reasoning [14.409253716114213]
大規模言語モデル(LLM)は、様々な領域にまたがる強力な機能を示している。
これらのアルゴリズムは、正確さ、時間、記憶の「不可能なトリニティ」に苦しむ。
本稿では,マイルストーントークンを識別し,KVベクトルを不要になるまで保持するアルゴリズム RaaS を提案する。
論文 参考訳(メタデータ) (2025-02-16T14:28:52Z) - ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - HashAttention: Semantic Sparsity for Faster Inference [95.31739930718116]
本稿では,HashAttention,framing pivotal token Identificationを推薦問題として紹介する。
トークン1個あたり32ビットの補助メモリしか必要とせず、最小品質の損失を最小限に抑えられるため、最大16タイムで使用されるトークンを削減できる。
A100 GPUでは、HashAttentionを組み込むことで、GPT-FASTで4.3times$、FlashDecodeで2.54times$、GPT-FASTで最大3.12times$高スループットを実現している。
論文 参考訳(メタデータ) (2024-12-19T02:34:15Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - Faster Causal Attention Over Large Sequences Through Sparse Flash
Attention [45.18552512844457]
FlashAttentionを拡張して、大量の注目空間パターンに対応します。
変換言語モデルのトレーニング速度を、それぞれ$2.0times$と$3.3times$で、それぞれ$8k$と$16k$のシーケンスで増加します。
論文 参考訳(メタデータ) (2023-06-01T21:33:59Z) - SMYRF: Efficient Attention using Asymmetric Clustering [103.47647577048782]
本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
論文 参考訳(メタデータ) (2020-10-11T18:49:17Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。