論文の概要: Curse of Attention: A Kernel-Based Perspective for Why Transformers Fail to Generalize on Time Series Forecasting and Beyond
- arxiv url: http://arxiv.org/abs/2412.06061v1
- Date: Sun, 08 Dec 2024 20:29:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:19.919081
- Title: Curse of Attention: A Kernel-Based Perspective for Why Transformers Fail to Generalize on Time Series Forecasting and Beyond
- Title(参考訳): 注意の曲線:トランスフォーマーが時系列予測とそれを超える一般化に失敗した理由のカーネルベース視点
- Authors: Yekun Ke, Yingyu Liang, Zhenmei Shi, Zhao Song, Chiwun Yang,
- Abstract要約: TSFタスクにおける変圧器の非効率性に関する最初の理論的説明を提案する。
トレーニングアテンションネットワークにおけるbf非対称学習のメカニズムを考察する。
- 参考スコア(独自算出の注目度): 17.002793355495136
- License:
- Abstract: The application of transformer-based models on time series forecasting (TSF) tasks has long been popular to study. However, many of these works fail to beat the simple linear residual model, and the theoretical understanding of this issue is still limited. In this work, we propose the first theoretical explanation of the inefficiency of transformers on TSF tasks. We attribute the mechanism behind it to {\bf Asymmetric Learning} in training attention networks. When the sign of the previous step is inconsistent with the sign of the current step in the next-step-prediction time series, attention fails to learn the residual features. This makes it difficult to generalize on out-of-distribution (OOD) data, especially on the sign-inconsistent next-step-prediction data, with the same representation pattern, whereas a linear residual network could easily accomplish it. We hope our theoretical insights provide important necessary conditions for designing the expressive and efficient transformer-based architecture for practitioners.
- Abstract(参考訳): 時系列予測(TSF)タスクへのトランスフォーマーモデルの適用は、長い間研究が続けられてきた。
しかし、これらの研究の多くは単純な線形残差モデルに勝てず、この問題の理論的理解は依然として限られている。
本研究では,TSFタスクにおけるトランスフォーマーの非効率性に関する最初の理論的説明を提案する。
我々は、その背景にあるメカニズムを、トレーニングアテンションネットワークにおける「bf非対称学習」とみなす。
前のステップの符号が次のステップ予測時系列における現在のステップの符号と矛盾する場合、注意は残像を学習することができない。
これにより、特に符号不一致の次ステップ予測データにおいて、出力外データ(OOD)を同じ表現パターンで一般化することが難しくなり、線形残差ネットワークは容易にそれを実現することができる。
我々の理論的な洞察が、実践者のために表現的で効率的なトランスフォーマーベースのアーキテクチャを設計するための重要な条件を提供することを期待している。
関連論文リスト
- LSEAttention is All You Need for Time Series Forecasting [0.0]
トランスフォーマーベースのアーキテクチャは自然言語処理とコンピュータビジョンにおいて顕著な成功を収めた。
変圧器モデルでよく見られるエントロピー崩壊とトレーニング不安定性に対処するアプローチである textbfLSEAttention を導入する。
論文 参考訳(メタデータ) (2024-10-31T09:09:39Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Non-stationary Transformers: Exploring the Stationarity in Time Series
Forecasting [86.33543833145457]
本稿では,2つの相互依存モジュールを持つ汎用フレームワークとして,非定常変圧器を提案する。
我々のフレームワークは、メインストリームのトランスフォーマーを、大きなマージンで継続的に増加させ、トランスフォーマーで49.43%、インフォーマーで47.34%、改革派で46.89%削減します。
論文 参考訳(メタデータ) (2022-05-28T12:27:27Z) - Are Transformers Effective for Time Series Forecasting? [13.268196448051308]
近年、時系列予測(TSF)タスクのためのTransformerベースのソリューションが急増している。
本研究は,Transformer-based techniqueが長期時系列予測に適した解であるかどうかを考察する。
変換器をベースとした解の長期予測精度が比較的高いことは,変換器アーキテクチャの時間的関係抽出能力とはほとんど関係がないことがわかった。
論文 参考訳(メタデータ) (2022-05-26T17:17:08Z) - NAST: Non-Autoregressive Spatial-Temporal Transformer for Time Series
Forecasting [24.510978166050293]
本研究は時系列予測のための非自己回帰変換アーキテクチャを提案する最初の試みである。
本稿では,空間的注意と時間的注意のギャップを埋めるために,学習した時間的影響マップを用いて橋を架ける新しい時間的注意機構を提案する。
論文 参考訳(メタデータ) (2021-02-10T18:36:11Z) - Spatio-Temporal Graph Scattering Transform [54.52797775999124]
グラフニューラルネットワークは、十分な高品質のトレーニングデータがないために、現実のシナリオでは実用的ではないかもしれない。
我々は時間的データを解析するための数学的に設計された新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2020-12-06T19:49:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。