論文の概要: FLARE: Fast Low-rank Attention Routing Engine
- arxiv url: http://arxiv.org/abs/2508.12594v1
- Date: Mon, 18 Aug 2025 03:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.955341
- Title: FLARE: Fast Low-rank Attention Routing Engine
- Title(参考訳): FLARE: 高速低ランクアテンションルーティングエンジン
- Authors: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara,
- Abstract要約: Fast Low-rank Attention Engine (FLARE) は、固定長の待ち行列を通して注意を誘導する線形複雑自己注意機構である。
FLAREは前例のない問題のサイズにスケールするだけでなく、最先端のニューラルPDEサロゲートよりも精度が高い。
- 参考スコア(独自算出の注目度): 1.865906901152234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The quadratic complexity of self-attention limits its applicability and scalability on large unstructured meshes. We introduce Fast Low-rank Attention Routing Engine (FLARE), a linear complexity self-attention mechanism that routes attention through fixed-length latent sequences. Each attention head performs global communication among $N$ tokens by projecting the input sequence onto a fixed length latent sequence of $M \ll N$ tokens using learnable query tokens. By routing attention through a bottleneck sequence, FLARE learns a low-rank form of attention that can be applied at $O(NM)$ cost. FLARE not only scales to unprecedented problem sizes, but also delivers superior accuracy compared to state-of-the-art neural PDE surrogates across diverse benchmarks. We also release a new additive manufacturing dataset to spur further research. Our code is available at https://github.com/vpuri3/FLARE.py.
- Abstract(参考訳): 自己注意の二次的な複雑さは、大きな非構造化メッシュに対する適用性とスケーラビリティを制限する。
我々は、固定長の待ち行列を通して注意を誘導する線形複雑自己注意機構であるFLARE(Fast Low-rank Attention Routing Engine)を導入する。
各アテンションヘッドは、学習可能なクエリトークンを使用して、入力シーケンスを$M \ll N$トークンの固定長潜在シーケンスに投影することで、$N$トークン間のグローバル通信を実行する。
ボトルネックシーケンスを通して注意をルーティングすることで、FLAREは、$O(NM)$コストで適用可能な低ランクな注意形式を学ぶ。
FLAREは、前例のない問題サイズにスケールするだけでなく、さまざまなベンチマークにまたがる最先端のニューラルPDEサロゲートよりも優れた精度を提供する。
また、さらなる研究を促進するため、新たな追加製造データセットもリリースしました。
私たちのコードはhttps://github.com/vpuri3/FLARE.pyで公開されています。
関連論文リスト
- Multipole Attention for Efficient Long Context Reasoning [64.94673641704289]
大規模推論モデル (LRM) は複雑な問題解決タスクにおいて有望な精度の向上を示す。
LRMは、答える前に考えるために、長い連鎖推論を生成する必要がある。
本稿では,重要なトークンに対してのみ正確に注意を払うことで,自己回帰推論を高速化するマルチポール注意法を提案する。
論文 参考訳(メタデータ) (2025-06-16T03:00:40Z) - ZETA: Leveraging Z-order Curves for Efficient Top-k Attention [22.90397380324185]
本稿では,全シーケンスに対する過去のトークンの並列クエリを可能にするZETAを提案する。
ZETA は合成textscMulti-Query Associative Recall タスクにおける標準注意性能と一致する。
論文 参考訳(メタデータ) (2025-01-24T15:33:05Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - SMYRF: Efficient Attention using Asymmetric Clustering [103.47647577048782]
本稿では,注目度を近似する新しいタイプのバランスクラスタリングアルゴリズムを提案する。
SMYRFは、再トレーニングすることなく、高密度の注意層をドロップインで置き換えることができる。
SMYRFは,訓練前後の集中的注意と相互に使用できることが示唆された。
論文 参考訳(メタデータ) (2020-10-11T18:49:17Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。