論文の概要: Linear Transformers as VAR Models: Aligning Autoregressive Attention Mechanisms with Autoregressive Forecasting
- arxiv url: http://arxiv.org/abs/2502.07244v1
- Date: Tue, 11 Feb 2025 04:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:10:48.295300
- Title: Linear Transformers as VAR Models: Aligning Autoregressive Attention Mechanisms with Autoregressive Forecasting
- Title(参考訳): VARモデルとしての線形変圧器:自己回帰予測による自己回帰的注意機構の調整
- Authors: Jiecheng Lu, Shihao Yang,
- Abstract要約: 一つの線形注意層を動的ベクトル自己回帰(VAR)構造と解釈できることを示す。
一般化,注意,入出力の流れを再構成することにより,多層線形注意をVARモデルとして整列させることができる。
多変量TSFのための解釈可能な動的VAR重みを統合する線形変圧器変種であるVARの構造配向混合法を提案する。
- 参考スコア(独自算出の注目度): 0.9361474110798144
- License:
- Abstract: Autoregressive attention-based time series forecasting (TSF) has drawn increasing interest, with mechanisms like linear attention sometimes outperforming vanilla attention. However, deeper Transformer architectures frequently misalign with autoregressive objectives, obscuring the underlying VAR structure embedded within linear attention and hindering their ability to capture the data generative processes in TSF. In this work, we first show that a single linear attention layer can be interpreted as a dynamic vector autoregressive (VAR) structure. We then explain that existing multi-layer Transformers have structural mismatches with the autoregressive forecasting objective, which impair interpretability and generalization ability. To address this, we show that by rearranging the MLP, attention, and input-output flow, multi-layer linear attention can also be aligned as a VAR model. Then, we propose Structural Aligned Mixture of VAR (SAMoVAR), a linear Transformer variant that integrates interpretable dynamic VAR weights for multivariate TSF. By aligning the Transformer architecture with autoregressive objectives, SAMoVAR delivers improved performance, interpretability, and computational efficiency, comparing to SOTA TSF models.
- Abstract(参考訳): 自己回帰的注意に基づく時系列予測(TSF)は、リニアアテンションのようなメカニズムにより、時としてバニラアテンションを上回っている。
しかし、より深いトランスフォーマーアーキテクチャは、しばしば自己回帰的目的と誤認し、基礎となるVAR構造を線形の注意の中に埋め込んでおり、TSFのデータ生成プロセスを捕捉する能力を妨げている。
本研究では,1つの線形アテンション層を動的ベクトル自己回帰(VAR)構造として解釈できることを示す。
そこで我々は,既存の多層トランスフォーマーが自己回帰予測目標と構造的ミスマッチし,解釈性や一般化性を損なうことを説明している。
そこで本研究では,MLP,アテンション,インプットアウトプットフローを再構成することにより,多層線形アテンションをVARモデルとしてアライメント可能であることを示す。
次に,多変量TSFのための解釈可能な動的VAR重みを統合する線形トランスフォーマー変種であるSAMoVAR(Structure Aligned Mixture of VAR)を提案する。
トランスフォーマーアーキテクチャを自動回帰目標と整合させることで、SAMoVARはSOTA TSFモデルと比較して性能、解釈可能性、計算効率を向上させる。
関連論文リスト
- Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Training Dynamics of Transformers to Recognize Word Co-occurrence via Gradient Flow Analysis [97.54180451650122]
本研究では,2つの単語の共起を認識するタスクにおいて,浅層変圧器を訓練するダイナミクスについて検討する。
我々は3つの注意行列と線形層を同時に学習する勾配流れのダイナミクスを解析した。
本研究では, 傾斜流の新たな特性として, 勾配のテクトリアルバランスを証明し, 異なる試料の損失値をほぼ同じ速度で減少させ, さらに, ほぼ最小限のトレーニング損失の証明を容易にする。
論文 参考訳(メタデータ) (2024-10-12T17:50:58Z) - WAVE: Weighted Autoregressive Varing Gate for Time Series Forecasting [9.114664059026767]
本稿では,自己回帰(AR)と移動平均(MA)の両方を組み込んだ重み付き自己回帰変量ガットEアテンション機構を提案する。
様々な注意機構に適応し、時系列データの中で長距離および局所的な時間パターンをキャプチャする能力を強化し、分離することができる。
論文 参考訳(メタデータ) (2024-10-04T05:45:50Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Crossfusor: A Cross-Attention Transformer Enhanced Conditional Diffusion Model for Car-Following Trajectory Prediction [10.814758830775727]
本研究では,自動車追従軌道予測のためのクロスアテンショントランスフォーマー拡張拡散モデル (Crossfusor) を提案する。
車両間の詳細な相互作用と自動車追従ダイナミクスを堅牢な拡散フレームワークに統合し、予測された軌道の精度と現実性を改善する。
NGSIMデータセットの実験結果から、クロスファザーは特に長期予測において最先端のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-06-17T17:35:47Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - Optimizing Non-Autoregressive Transformers with Contrastive Learning [74.46714706658517]
非自己回帰変換器(NAT)は、逐次順序ではなく全ての単語を同時に予測することにより、自動回帰変換器(AT)の推論遅延を低減する。
本稿では,データ分布ではなく,モデル分布からのサンプリングによるモダリティ学習の容易化を提案する。
論文 参考訳(メタデータ) (2023-05-23T04:20:13Z) - Towards Long-Term Time-Series Forecasting: Feature, Pattern, and
Distribution [57.71199089609161]
長期的時系列予測(LTTF)は、風力発電計画など、多くのアプリケーションで需要が高まっている。
トランスフォーマーモデルは、高い計算自己認識機構のため、高い予測能力を提供するために採用されている。
LTTFの既存の手法を3つの面で区別する,Conformer という,効率的なTransformer ベースモデルを提案する。
論文 参考訳(メタデータ) (2023-01-05T13:59:29Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。