論文の概要: Unlocking the Potential of Transformers in Time Series Forecasting with
Sharpness-Aware Minimization and Channel-Wise Attention
- arxiv url: http://arxiv.org/abs/2402.10198v2
- Date: Mon, 19 Feb 2024 12:44:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 00:28:59.356858
- Title: Unlocking the Potential of Transformers in Time Series Forecasting with
Sharpness-Aware Minimization and Channel-Wise Attention
- Title(参考訳): シャープネス認識最小化とチャネルワイズ注意による時系列予測における変圧器の可能性の解錠
- Authors: Romain Ilbert and Ambroise Odonnat and Vasilii Feofanov and Aladin
Virmaux and Giuseppe Paolo and Themis Palpanas and Ievgen Redko
- Abstract要約: 高い表現力にもかかわらず,変換器は真の解に収束することができないことを示す。
シャープネス・アウェア・最適化に最適化された場合, ローカル・ミニマを回避できる浅層軽量変圧器モデルを提案する。
特にSAMformerは、現在の最先端モデルであるTSMixerを平均14.33%上回り、パラメータは4倍少ない。
- 参考スコア(独自算出の注目度): 15.407813806186063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based architectures achieved breakthrough performance in natural
language processing and computer vision, yet they remain inferior to simpler
linear baselines in multivariate long-term forecasting. To better understand
this phenomenon, we start by studying a toy linear forecasting problem for
which we show that transformers are incapable of converging to their true
solution despite their high expressive power. We further identify the attention
of transformers as being responsible for this low generalization capacity.
Building upon this insight, we propose a shallow lightweight transformer model
that successfully escapes bad local minima when optimized with sharpness-aware
optimization. We empirically demonstrate that this result extends to all
commonly used real-world multivariate time series datasets. In particular,
SAMformer surpasses the current state-of-the-art model TSMixer by 14.33% on
average, while having ~4 times fewer parameters. The code is available at
https://github.com/romilbert/samformer.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは自然言語処理とコンピュータビジョンにおいて画期的な性能を達成したが、多変量長期予測において単純な線形ベースラインよりも劣っている。
この現象をよりよく理解するために,我々は,トランスフォーマーが表現力が高いにもかかわらず真の解に収束できないことを示す,おもちゃ線形予測問題の研究から始める。
我々はさらに、変換器の注意を、この低一般化能力の責任とみなす。
この知見に基づいて,シャープネス・アウェア最適化を施し,局所的な極小化をうまく回避できる軽量トランスフォーマーモデルを提案する。
実世界の多変量時系列データセットのすべてにこの結果が拡張されることを実証的に実証した。
特にSAMformerは、現在の最先端モデルであるTSMixerを平均14.33%上回り、パラメータはおよそ4倍少ない。
コードはhttps://github.com/romilbert/samformerで入手できる。
関連論文リスト
- LSEAttention is All You Need for Time Series Forecasting [0.0]
トランスフォーマーベースのアーキテクチャは自然言語処理とコンピュータビジョンにおいて顕著な成功を収めた。
変圧器モデルでよく見られるエントロピー崩壊とトレーニング不安定性に対処するアプローチである textbfLSEAttention を導入する。
論文 参考訳(メタデータ) (2024-10-31T09:09:39Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Are Self-Attentions Effective for Time Series Forecasting? [4.990206466948269]
時系列予測は、複数のドメインやさまざまなシナリオにわたるアプリケーションにとって不可欠である。
近年の研究では、より単純な線形モデルは、複雑なトランスフォーマーベースのアプローチよりも優れていることが示されている。
我々は、新しいアーキテクチャ、クロスアテンションのみの時系列変換器(CATS)を導入する。
提案モデルでは,平均二乗誤差が最小であり,既存のモデルに比べてパラメータが少ないため,性能が向上する。
論文 参考訳(メタデータ) (2024-05-27T06:49:39Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - U-shaped Transformer: Retain High Frequency Context in Time Series
Analysis [0.5710971447109949]
本稿では,変圧器の低域特性を考察し,その利点を取り入れようと試みる。
パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。
実験により、比較的低コストで複数のデータセットをまたいだ高度なレベルでモデルが動作できることが実証された。
論文 参考訳(メタデータ) (2023-07-18T07:15:26Z) - Two Steps Forward and One Behind: Rethinking Time Series Forecasting
with Deep Learning [7.967995669387532]
Transformerは、人工知能ニューラルネットワークの世界に革命をもたらした、非常に成功したディープラーニングモデルである。
時系列予測領域に適用したトランスフォーマーモデルの有効性について検討する。
性能が良く、より複雑でない代替モデル一式を提案する。
論文 参考訳(メタデータ) (2023-04-10T12:47:42Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - A K-variate Time Series Is Worth K Words: Evolution of the Vanilla
Transformer Architecture for Long-term Multivariate Time Series Forecasting [52.33042819442005]
トランスフォーマーはMTSFのデファクトソリューションとなっている。
本研究では,MTSFトランスフォーマーアーキテクチャにおける現在のトークン化戦略がトランスフォーマーのトークン帰納バイアスを無視していることを指摘した。
バニラMTSF変圧器の基本構造について一連の進化を行った。
驚いたことに、進化した単純変圧器アーキテクチャは非常に効果的であり、バニラMTSF変圧器の過密現象を回避することに成功している。
論文 参考訳(メタデータ) (2022-12-06T07:00:31Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。