論文の概要: Does Long-Term Series Forecasting Need Complex Attention and Extra Long
Inputs?
- arxiv url: http://arxiv.org/abs/2306.05035v1
- Date: Thu, 8 Jun 2023 08:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:24:51.535293
- Title: Does Long-Term Series Forecasting Need Complex Attention and Extra Long
Inputs?
- Title(参考訳): 長期連続予測は複雑な注意と余剰長期入力を必要とするか?
- Authors: Daojun Liang, Haixia Zhang, Dongfeng Yuan, Xiaoyan Ma, Dongyang Li and
Minggao Zhang
- Abstract要約: トランスフォーマーベースのモデルは、様々な時系列タスクにおいて印象的なパフォーマンスを達成した。
近年、LTSF(Long-Term Series Forecasting)タスクも注目されている。
トランスフォーマーベースの手法を要求される計算複雑性と長いシーケンスのため、LTSFタスクへの適用には2つの大きな問題がある。
- 参考スコア(独自算出の注目度): 16.230526948985826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Transformer-based models have achieved impressive performance on various
time series tasks, Long-Term Series Forecasting (LTSF) tasks have also received
extensive attention in recent years. However, due to the inherent computational
complexity and long sequences demanding of Transformer-based methods, its
application on LTSF tasks still has two major issues that need to be further
investigated: 1) Whether the sparse attention mechanism designed by these
methods actually reduce the running time on real devices; 2) Whether these
models need extra long input sequences to guarantee their performance? The
answers given in this paper are negative. Therefore, to better copy with these
two issues, we design a lightweight Period-Attention mechanism (Periodformer),
which renovates the aggregation of long-term subseries via explicit periodicity
and short-term subseries via built-in proximity. Meanwhile, a gating mechanism
is embedded into Periodformer to regulate the influence of the attention module
on the prediction results. Furthermore, to take full advantage of GPUs for fast
hyperparameter optimization (e.g., finding the suitable input length), a
Multi-GPU Asynchronous parallel algorithm based on Bayesian Optimization (MABO)
is presented. MABO allocates a process to each GPU via a queue mechanism, and
then creates multiple trials at a time for asynchronous parallel search, which
greatly reduces the search time. Compared with the state-of-the-art methods,
the prediction error of Periodformer reduced by 13% and 26% for multivariate
and univariate forecasting, respectively. In addition, MABO reduces the average
search time by 46% while finding better hyperparameters. As a conclusion, this
paper indicates that LTSF may not need complex attention and extra long input
sequences. The source code will be open source on Github.
- Abstract(参考訳): 変圧器ベースのモデルが様々な時系列タスクで印象的な性能を発揮しているため、ltsf(long-term series forecasting)のタスクも近年広く注目を集めている。
しかし、Transformerベースの手法を要求される計算の複雑さと長いシーケンスのため、LTSFタスクへの適用には、さらに検討が必要な2つの大きな問題がある。
1) これらの方法によって設計される注意の分散機構が実際に実際のデバイス上での実行時間を減少させるかどうか。
2)これらのモデルは、性能を保証するために、さらに長い入力シーケンスを必要とするか?
本論文の回答は否定的である。
そこで本稿では,これら2つの課題をよりよく再現するために,周期性による長期サブシリーズの集約と,近接処理による短期サブシリーズの更新を行う軽量な周期アテンション機構(Periodformer)を設計する。
一方、ガティング機構を周期フォーマに埋め込み、アテンションモジュールが予測結果に与える影響を調節する。
さらに,高速なハイパーパラメータ最適化のためのGPUを最大限活用するために,ベイズ最適化(MABO)に基づくマルチGPU非同期並列アルゴリズムを提案する。
MABOはキュー機構を介して各GPUにプロセスを割り当て、非同期並列検索のために一度に複数の試行を生成する。
最新の手法と比較すると,多変量予測では13%,不定値予測では26%の予測誤差が減少した。
さらにMABOは平均検索時間を46%削減し、ハイパーパラメータも改善した。
結論として、LTSFは複雑な注意と余分な長い入力シーケンスを必要としない可能性がある。
ソースコードはGithubでオープンソース化される。
関連論文リスト
- Squeezed Attention: Accelerating Long Context Length LLM Inference [64.11145320159126]
本稿では,入力プロンプトの大部分を固定したLLMアプリケーションを高速化する機構として,Squeezed Attentionを提案する。
K-meansクラスタリングをオフラインで使用して、セマンティックな類似性に基づいて、固定されたコンテキストのキーをグループ化し、各クラスタを単一のセントロイド値で表現します。
そして、固定された文脈から重要なキーのみを用いて正確な注意を計算し、帯域幅と計算コストを削減する。
論文 参考訳(メタデータ) (2024-11-14T18:54:19Z) - POD-Attention: Unlocking Full Prefill-Decode Overlap for Faster LLM Inference [9.164093249308419]
我々は、ハイブリッドバッチの注意を効率的に計算する最初のGPUカーネルであるPOD-Attentionを紹介する。
POD-Attentionは、GPUのリソースを慎重に割り当てることで、計算帯域とメモリ帯域の両方の利用を最大化することを目的としている。
論文 参考訳(メタデータ) (2024-10-23T17:06:56Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2022-11-24T03:06:36Z) - A Length Adaptive Algorithm-Hardware Co-design of Transformer on FPGA
Through Sparse Attention and Dynamic Pipelining [28.336502115532905]
本稿ではトランスフォーマーアクセラレーションのためのコヒーレントシーケンス長適応型アルゴリズム-ハードウェア共設計を提案する。
ハードウェアフレンドリーなスパースアテンション演算子と長編ハードウェアリソーススケジューリングアルゴリズムを開発した。
我々の設計は、非常に小さな精度の損失があり、CPUやGPUの実装と比較して80.2$times$と2.6$times$ Speedupがある。
論文 参考訳(メタデータ) (2022-08-07T05:48:38Z) - SALO: An Efficient Spatial Accelerator Enabling Hybrid Sparse Attention
Mechanisms for Long Sequences [16.332650428422443]
長いシーケンスに対するハイブリッドスパースアテンション機構を実現するためのSALOを提案する。
SALOには、ハイブリッドスパース注意パターンをハードウェアにマッピングするデータスケジューラと、空間加速器が含まれている。
我々は,SALOがGPUやCPUの実装と比較して平均17.66倍,89.33倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2022-06-29T12:01:19Z) - Triformer: Triangular, Variable-Specific Attentions for Long Sequence
Multivariate Time Series Forecasting--Full Version [50.43914511877446]
本稿では,高い効率と精度を確保するために,三角形,可変特性に着目した注意点を提案する。
我々はTriformerが精度と効率の両方で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-04-28T20:41:49Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。