論文の概要: Why Attention Fails: The Degeneration of Transformers into MLPs in Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2509.20942v1
- Date: Thu, 25 Sep 2025 09:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.821361
- Title: Why Attention Fails: The Degeneration of Transformers into MLPs in Time Series Forecasting
- Title(参考訳): なぜ注意が損なわれるのか: 時系列予測におけるトランスフォーマーのMLPへの進化
- Authors: Zida Liang, Jiayi Zhu, Weiqiang Sun,
- Abstract要約: トランスフォーマーベースのアーキテクチャは自然言語処理とコンピュータビジョンで高い性能を達成した。
しかし、多くの研究では、時系列予測において明確な優位性を示していないことが示されている。
- 参考スコア(独自算出の注目度): 1.924423011183876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based architectures achieved high performance in natural language processing and computer vision, yet many studies have shown that they have not demonstrated a clear advantage in time series forecasting and even underperform simple linear baselines in some cases. However, most of these studies have not thoroughly explored the reasons behind the failure of transformers. To better understand time-series transformers(TST), we designed a series of experiments, progressively modifying transformers into MLPs to investigate the impact of the attention mechanism. Surprisingly, transformer blocks often degenerate into simple MLPs in existing time-series transformers. We designed a interpretable dataset to investigate the reasons behind the failure of the attention mechanism and revealed that the attention mechanism is not working in the expected way. We theoretically analyzed the reasons behind this phenomenon, demonstrating that the current embedding methods fail to allow transformers to function in a well-structured latent space, and further analyzed the deeper underlying causes of the failure of embedding.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは自然言語処理やコンピュータビジョンにおいて高い性能を示したが、多くの研究では時系列予測において明確な優位性を示しておらず、場合によっては単純な線形ベースラインを過小評価している。
しかし、これらの研究の多くは、トランスフォーマーの失敗の背景にある理由を詳しく調べていない。
時系列変換器(TST)をよりよく理解するため、我々は一連の実験を設計し、アテンションメカニズムの影響を調べるために、トランスフォーマーをMPPに段階的に修正した。
驚くべきことに、変圧器ブロックは、しばしば既存の時系列変換器で単純なMLPに縮退する。
我々は,注意機構の故障の原因を明らかにするために解釈可能なデータセットを設計し,注意機構が期待通りに機能していないことを明らかにした。
本研究では, この現象の原因を理論的に解析し, 現在の埋込み法では変圧器が十分に構造化された潜伏空間で機能しないことを示すとともに, 埋込み失敗の根底にある深い原因を解析した。
関連論文リスト
- SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention [14.672072173674039]
高い表現力にもかかわらず,変換器は真の解に収束することができないことを示す。
シャープネス・アウェア・最適化に最適化された場合, ローカル・ミニマの悪さを回避できる浅層軽量変圧器モデルを提案する。
特にSAMformerは現在の最先端メソッドを超え、最大の基盤モデルであるMOIRAIと同等であり、パラメータは大幅に少ない。
論文 参考訳(メタデータ) (2024-02-15T18:55:05Z) - Attention Is Not All You Need Anymore [3.9693969407364427]
本稿では,トランスフォーマーの自己保持機構に対するドロップイン置換のファミリを提案する。
実験結果から,自己保持機構をSHEに置き換えることによってトランスフォーマーの性能が向上することが示唆された。
提案されたエクストラクターは、自己保持機構よりも速く走ることができる。
論文 参考訳(メタデータ) (2023-08-15T09:24:38Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - A K-variate Time Series Is Worth K Words: Evolution of the Vanilla
Transformer Architecture for Long-term Multivariate Time Series Forecasting [52.33042819442005]
トランスフォーマーはMTSFのデファクトソリューションとなっている。
本研究では,MTSFトランスフォーマーアーキテクチャにおける現在のトークン化戦略がトランスフォーマーのトークン帰納バイアスを無視していることを指摘した。
バニラMTSF変圧器の基本構造について一連の進化を行った。
驚いたことに、進化した単純変圧器アーキテクチャは非常に効果的であり、バニラMTSF変圧器の過密現象を回避することに成功している。
論文 参考訳(メタデータ) (2022-12-06T07:00:31Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Transformers in Time Series: A Survey [66.50847574634726]
時系列モデリングのためのTransformerスキームを,その強みと限界を強調して体系的にレビューする。
ネットワーク構造の観点から、トランスフォーマーに施された適応と修正を要約する。
応用の観点からは,予測,異常検出,分類などの共通タスクに基づいて時系列変換器を分類する。
論文 参考訳(メタデータ) (2022-02-15T01:43:27Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。