論文の概要: Scaling Attention to Very Long Sequences in Linear Time with Wavelet-Enhanced Random Spectral Attention (WERSA)
- arxiv url: http://arxiv.org/abs/2507.08637v1
- Date: Fri, 11 Jul 2025 14:40:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.390079
- Title: Scaling Attention to Very Long Sequences in Linear Time with Wavelet-Enhanced Random Spectral Attention (WERSA)
- Title(参考訳): Wavelet-Enhanced Random Spectral Attention (WERSA) を用いた線形時間における長周期のスケーリング注意
- Authors: Vincenzo Dentamaro,
- Abstract要約: トランスフォーマーモデルは、通常の注意が2次的なO(n2)$時間複雑性を持つため、長い列で計算にコストがかかる。
WERSA(Wavelet-Enhanced Random Spectral Attention)は、線形な$O(n)$時間複雑性のメカニズムである。
計算負荷を大幅に削減し、精度を損なうことなく、WERSAはより実用的で安価で長いコンテキストモデルを可能にする。
- 参考スコア(独自算出の注目度): 1.7622426179653563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models are computationally costly on long sequences since regular attention has quadratic $O(n^2)$ time complexity. We introduce Wavelet-Enhanced Random Spectral Attention (WERSA), a novel mechanism of linear $O(n)$ time complexity that is pivotal to enable successful long-sequence processing without the performance trade-off. WERSA merges content-adaptive random spectral features together with multi-resolution Haar wavelets and learnable parameters to selectively attend to informative scales of data while preserving linear efficiency. Large-scale comparisons \textbf{on single GPU} and across various benchmarks (vision, NLP, hierarchical reasoning) and various attention mechanisms (like Multiheaded Attention, Flash-Attention-2, FNet, Linformer, Performer, Waveformer), reveal uniform advantages of WERSA. It achieves best accuracy in all tests. On ArXiv classification, WERSA improves accuracy over vanilla attention by 1.2\% (86.2\% vs 85.0\%) while cutting training time by 81\% (296s vs 1554s) and FLOPS by 73.4\% (26.2G vs 98.4G). Significantly, WERSA excels where vanilla and FlashAttention-2 fail: on ArXiv-128k's extremely lengthy sequences, it achieves best accuracy (79.1\%) and AUC (0.979) among viable methods, operating on data that gives Out-Of-Memory errors to quadratic methods while being \textbf{twice as fast} as Waveformer, its next-best competitor. By significantly reducing computational loads without compromising accuracy, WERSA makes possible more practical, more affordable, long-context models, in particular on low-resource hardware, for more sustainable and more scalable AI development.
- Abstract(参考訳): トランスフォーマーモデルは、通常の注意が二次的な$O(n^2)$時間複雑さを持つため、長い列で計算的にコストがかかる。
WERSA(Wavelet-Enhanced Random Spectral Attention)は、線形な$O(n)$時間複雑性のメカニズムで、パフォーマンスのトレードオフなしに長時間の処理を成功させる。
WERSAは、マルチレゾリューションのハールウェーブレットと学習可能なパラメータを併用して、線形効率を保ちながら、データの情報スケールに選択的に参画する。
大規模な比較 textbf{on single GPU} と、様々なベンチマーク(ビジョン、NLP、階層的推論)と様々な注意機構(Multiheaded Attention、Flash-Attention-2、FNet、Linformer、Performer、Waveformer)により、WERSAの均一な利点が明らかになった。
すべてのテストで最高の精度を達成する。
ArXiv分類では、WERSAはバニラの注意力に対する精度を1.2\% (86.2\% vs 85.0\%)、トレーニング時間を81\% (296s vs 1554s)、FLOPSを73.4\% (26.2G vs 98.4G)改善している。
重要な点として、WERSAはバニラとFlashAttention-2がフェールするところを抜いている: ArXiv-128kの極端に長いシーケンスでは、その次の競合であるWaveformerのように、二次的なメソッドにアウトオブオフメモリエラーを与えるデータに対して、最も正確(79.1\%)とAUC(0.979)を達成する。
精度を損なうことなく計算負荷を大幅に削減することで、WERSAはより実用的で手頃な長期コンテキストモデル、特に低リソースのハードウェアにおいて、より持続的でスケーラブルなAI開発を可能にする。
関連論文リスト
- DeltaLLM: A Training-Free Framework Exploiting Temporal Sparsity for Efficient Edge LLM Inference [19.987309147268586]
デルタLLMは、リソース制約エッジデバイス上での効率的なLCM推論を実現するために、注意パターンの時間的間隔を利用する訓練不要のフレームワークである。
我々は、エッジデバイスフレンドリーなBitNet-b1.58-2B-4TモデルとLlama3.2-1B-Instructモデルについて、様々な言語タスクで評価する。
論文 参考訳(メタデータ) (2025-07-25T18:23:18Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [22.551095978580147]
本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
論文 参考訳(メタデータ) (2024-10-03T10:25:23Z) - MixLinear: Extreme Low Resource Multivariate Time Series Forecasting with 0.1K Parameters [6.733646592789575]
時系列予測(LTSF)は、パターンや傾向を特定するために、大量の時系列データを分析することによって、長期的な価値を予測する。
トランスフォーマーベースのモデルは高い予測精度を提供するが、ハードウェア制約のあるデバイスにデプロイするには計算集約的すぎることが多い。
資源制約のあるデバイスに特化して設計された超軽量時系列予測モデルであるMixLinearを提案する。
論文 参考訳(メタデータ) (2024-10-02T23:04:57Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。
次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。
変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文 参考訳(メタデータ) (2023-12-11T18:51:59Z) - Does Long-Term Series Forecasting Need Complex Attention and Extra Long
Inputs? [21.15722677855935]
トランスフォーマーベースのモデルは、様々な時系列タスクにおいて印象的なパフォーマンスを達成した。
近年、LTSF(Long-Term Series Forecasting)タスクも注目されている。
トランスフォーマーベースの手法を要求される計算複雑性と長いシーケンスのため、LTSFタスクへの適用には2つの大きな問題がある。
論文 参考訳(メタデータ) (2023-06-08T08:37:49Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - Triformer: Triangular, Variable-Specific Attentions for Long Sequence
Multivariate Time Series Forecasting--Full Version [50.43914511877446]
本稿では,高い効率と精度を確保するために,三角形,可変特性に着目した注意点を提案する。
我々はTriformerが精度と効率の両方で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-04-28T20:41:49Z) - Taking ROCKET on an Efficiency Mission: Multivariate Time Series
Classification with LightWaveS [3.5786621294068373]
正確な多変量時系列分類のためのフレームワークLightWaveSを提案する。
ROCKETの機能はわずか2.5%しか採用していないが、最近のディープラーニングモデルに匹敵する精度を実現している。
エッジデバイス上での推論において, ROCKETと比較して9倍から65倍のスピードアップを実現していることを示す。
論文 参考訳(メタデータ) (2022-04-04T10:52:20Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。