論文の概要: The Power of Architecture: Deep Dive into Transformer Architectures for Long-Term Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2507.13043v1
- Date: Thu, 17 Jul 2025 12:16:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.485614
- Title: The Power of Architecture: Deep Dive into Transformer Architectures for Long-Term Time Series Forecasting
- Title(参考訳): アーキテクチャの力: 長期的な時系列予測のためのトランスフォーマーアーキテクチャへの深い取り組み
- Authors: Lefei Shen, Mouxiang Chen, Han Fu, Xiaoxue Ren, Xiaoyun Joy Wang, Jianling Sun, Zhuo Li, Chenghao Liu,
- Abstract要約: 長期時系列予測(LTSF)においてトランスフォーマーモデルが最近主流となっている。
エンコーダのみ、エンコーダのみ、デコーダのみの設計といったアーキテクチャのバリエーションは、決定的な疑問を引き起こす。
既存のモデルは、しばしば様々な時系列固有の設計と密結合しており、アーキテクチャ自体の影響を分離することは困難である。
本稿では,これらの設計を混乱させる新しい分類法を提案し,トランスフォーマーアーキテクチャのより明確で統一的な比較を可能にする。
- 参考スコア(独自算出の注目度): 26.76928230531243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have recently become dominant in Long-term Time Series Forecasting (LTSF), yet the variations in their architecture, such as encoder-only, encoder-decoder, and decoder-only designs, raise a crucial question: What Transformer architecture works best for LTSF tasks? However, existing models are often tightly coupled with various time-series-specific designs, making it difficult to isolate the impact of the architecture itself. To address this, we propose a novel taxonomy that disentangles these designs, enabling clearer and more unified comparisons of Transformer architectures. Our taxonomy considers key aspects such as attention mechanisms, forecasting aggregations, forecasting paradigms, and normalization layers. Through extensive experiments, we uncover several key insights: bi-directional attention with joint-attention is most effective; more complete forecasting aggregation improves performance; and the direct-mapping paradigm outperforms autoregressive approaches. Furthermore, our combined model, utilizing optimal architectural choices, consistently outperforms several existing models, reinforcing the validity of our conclusions. We hope these findings offer valuable guidance for future research on Transformer architectural designs in LTSF. Our code is available at https://github.com/HALF111/TSF_architecture.
- Abstract(参考訳): トランスフォーマーベースのモデルは、最近LTSF(Long-term Time Series Forecasting)において支配的になっているが、エンコーダのみ、エンコーダのみ、エンコーダのみ、デコーダのみの設計といったアーキテクチャのバリエーションは、重要な疑問を引き起こしている。
しかし、既存のモデルは、しばしば様々な時系列固有の設計と密結合しており、アーキテクチャ自体の影響を分離することは困難である。
これを解決するために,トランスフォーマーアーキテクチャのより明確で統一的な比較を可能にする新しい分類法を提案する。
我々の分類学は、注意機構、アグリゲーション予測、予測パラダイム、正規化レイヤーといった重要な側面を考察している。
共同注意による双方向の注意が最も効果的であること、より完全な予測アグリゲーションによってパフォーマンスが向上すること、ダイレクトマッピングパラダイムが自己回帰的アプローチより優れていること、などです。
さらに、最適なアーキテクチャ選択を利用する統合モデルでは、既存のモデルよりも一貫して優れており、結論の妥当性が向上している。
これらの知見が今後LTSFにおけるTransformerアーキテクチャ設計の研究に役立てられることを願っている。
私たちのコードはhttps://github.com/HALF111/TSF_architecture.comから入手可能です。
関連論文リスト
- PDE-Transformer: Efficient and Versatile Transformers for Physics Simulations [23.196500975208302]
PDE-Transformerは、正規格子上の物理シミュレーションの代理モデリングのための改良されたトランスフォーマーベースのアーキテクチャである。
提案アーキテクチャは16種類のPDEの大規模データセット上で,コンピュータビジョンのための最先端のトランスフォーマーアーキテクチャより優れていることを示す。
論文 参考訳(メタデータ) (2025-05-30T15:39:54Z) - STAR: Synthesis of Tailored Architectures [61.080157488857516]
本稿では, 適合型アーキテクチャ (STAR) の新規な合成手法を提案する。
提案手法は線形入力可変系の理論に基づく新しい探索空間を結合し,階層的な数値エンコーディングをアーキテクチャゲノムに支持する。STARゲノムは,複数のモデル品質と効率の指標に最適化するために,勾配のない進化的アルゴリズムで自動的に精製・組換えされる。
STARを用いて、多種多様な計算単位と相互接続パターンを活用し、品質、パラメータサイズ、および自動回帰言語モデリングのための推論キャッシュのフロンティアにおける高度に最適化されたトランスフォーマーとストライプハイブリッドモデルを改善する。
論文 参考訳(メタデータ) (2024-11-26T18:42:42Z) - Knowledge-enhanced Transformer for Multivariate Long Sequence Time-series Forecasting [4.645182684813973]
本研究では,変数間の概念的関係をよく定義された知識グラフ内にカプセル化する新しい手法を提案する。
PatchTST, Autoformer, Informer, Vanilla Transformer などのセマンティックアーキテクチャへの統合の影響について検討する。
この拡張により、変数間の固有の構造的関係に対処するトランスフォーマーベースのアーキテクチャが強化される。
論文 参考訳(メタデータ) (2024-11-17T11:53:54Z) - AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation [48.82264764771652]
本稿では,畳み込みブロックと変圧器ブロックを組み合わせたハイブリッドアーキテクチャAsCANを紹介する。
AsCANは、認識、セグメンテーション、クラス条件画像生成など、さまざまなタスクをサポートしている。
次に、同じアーキテクチャをスケールして、大規模なテキスト・イメージタスクを解決し、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-11-07T18:43:17Z) - Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - UniTST: Effectively Modeling Inter-Series and Intra-Series Dependencies for Multivariate Time Series Forecasting [98.12558945781693]
フラット化されたパッチトークンに統一された注意機構を含む変圧器ベースモデルUniTSTを提案する。
提案モデルでは単純なアーキテクチャを採用しているが,時系列予測のためのいくつかのデータセットの実験で示されたような,魅力的な性能を提供する。
論文 参考訳(メタデータ) (2024-06-07T14:39:28Z) - Are Self-Attentions Effective for Time Series Forecasting? [4.990206466948269]
時系列予測は、複数のドメインやさまざまなシナリオにわたるアプリケーションにとって不可欠である。
近年の研究では、より単純な線形モデルは、複雑なトランスフォーマーベースのアプローチよりも優れていることが示されている。
我々は、新しいアーキテクチャ、クロスアテンションのみの時系列変換器(CATS)を導入する。
提案モデルでは,平均二乗誤差が最小であり,既存のモデルに比べてパラメータが少ないため,性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T06:49:39Z) - Towards smaller, faster decoder-only transformers: Architectural variants and their implications [0.0]
本稿では,デコーダのみのトランスアーキテクチャであるParallelGPT,LinearGPT,ConvGPTの3つの改良点を紹介する。
これらのバリエーションは、言語生成における従来のアーキテクチャと同等のパフォーマンスを示すが、モデルのサイズを縮小し、より高速なトレーニングプロセスの恩恵を受ける。
論文 参考訳(メタデータ) (2024-04-22T06:19:46Z) - Mechanistic Design and Scaling of Hybrid Architectures [114.3129802943915]
我々は、様々な計算プリミティブから構築された新しいハイブリッドアーキテクチャを特定し、テストする。
本研究では,大規模計算最適法則と新しい状態最適スケーリング法則解析を用いて,結果のアーキテクチャを実験的に検証する。
我々は,MAD合成法と計算-最適パープレキシティを相関させ,新しいアーキテクチャの正確な評価を可能にする。
論文 参考訳(メタデータ) (2024-03-26T16:33:12Z) - Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting [46.63798583414426]
時系列予測(LTSF)は時系列分析において重要なフロンティアである。
本研究は, 分析的および実証的な証拠から, 分解が過剰なモデルインフレーションを包含する鍵であることを実証する。
興味深いことに、時系列データの本質的なダイナミクスに分解を合わせることで、提案モデルは既存のベンチマークより優れている。
論文 参考訳(メタデータ) (2024-01-22T13:15:40Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。