論文の概要: Approximate attention with MLP: a pruning strategy for attention-based model in multivariate time series forecasting
- arxiv url: http://arxiv.org/abs/2410.24023v1
- Date: Thu, 31 Oct 2024 15:23:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:00:58.912208
- Title: Approximate attention with MLP: a pruning strategy for attention-based model in multivariate time series forecasting
- Title(参考訳): MLPによる近似的注意:多変量時系列予測における注意ベースモデルのプルーニング戦略
- Authors: Suhan Guo, Jiahong Deng, Yi Wei, Hui Dou, Furao Shen, Jian Zhao,
- Abstract要約: この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
注意機構全体が劣化する空間ネットワークに還元可能であることを示す。
- 参考スコア(独自算出の注目度): 21.7023262988233
- License:
- Abstract: Attention-based architectures have become ubiquitous in time series forecasting tasks, including spatio-temporal (STF) and long-term time series forecasting (LTSF). Yet, our understanding of the reasons for their effectiveness remains limited. This work proposes a new way to understand self-attention networks: we have shown empirically that the entire attention mechanism in the encoder can be reduced to an MLP formed by feedforward, skip-connection, and layer normalization operations for temporal and/or spatial modeling in multivariate time series forecasting. Specifically, the Q, K, and V projection, the attention score calculation, the dot-product between the attention score and the V, and the final projection can be removed from the attention-based networks without significantly degrading the performance that the given network remains the top-tier compared to other SOTA methods. For spatio-temporal networks, the MLP-replace-attention network achieves a reduction in FLOPS of $62.579\%$ with a loss in performance less than $2.5\%$; for LTSF, a reduction in FLOPs of $42.233\%$ with a loss in performance less than $2\%$.
- Abstract(参考訳): 注意に基づくアーキテクチャは、時空間(STF)や長期時系列予測(LTSF)など、時系列予測タスクにおいてユビキタスになっている。
しかし、その効果の理由に関する我々の理解は依然として限られている。
本研究では,多変量時系列予測における時間的・空間的モデリングのためのフィードフォワード,スキップ接続,レイヤ正規化操作により,エンコーダの注意機構全体をMDPに還元できることを実証的に示す。
具体的には、Q,K,Vプロジェクション、アテンションスコア計算、アテンションスコアとVの間のドット積、および最終プロジェクションを、他のSOTA手法と比較して、与えられたネットワークが最上位である性能を著しく低下させることなく、アテンションベースネットワークから除去することができる。
時空間ネットワークの場合、MLP-リプレース・アテンションネットワークは、パフォーマンスの損失が2.5\%ドル未満のFLOPSの62.579\%ドル、LTSFの場合、FLOPの低下が42.233\%ドル、パフォーマンスの損失が2\%ドル未満のFLOPSの62.579\%ドルを達成する。
関連論文リスト
- Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Boosting MLPs with a Coarsening Strategy for Long-Term Time Series Forecasting [6.481470306093991]
ディープラーニング手法は,長期連続予測においてその強みを発揮してきた。
彼らはしばしば表現力と計算効率のバランスをとるのに苦労する。
本稿では,情報グラニュラーを単独の時間点の代わりに形成することにより,プロトタイプに関わる問題を緩和する粗大化戦略を提案する。
純粋な構造的単純さの畳み込みに基づいて、CP-Netは線形計算の複雑さとランタイムの低さを維持しつつ、7つの予測ベンチマークでSOTA法と比較すると4.1%の改善を示した。
論文 参考訳(メタデータ) (2024-05-06T06:47:44Z) - HiMTM: Hierarchical Multi-Scale Masked Time Series Modeling with Self-Distillation for Long-Term Forecasting [17.70984737213973]
HiMTMは長期予測のための自己蒸留を用いた階層型マルチスケールマスク時系列モデリングである。
HiMTMは,(1)階層型マルチスケールトランスフォーマー (HMT) と,2) エンコーダを特徴抽出へ向ける分離エンコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダ(DED)デコンダデコーダデコンダデコーダデコーダデコーダデコンダデコーダ(DED) の4つのキーコンポーネントを統合する。
7つの主流データセットの実験によると、HiMTMは最先端の自己教師とエンドツーエンドの学習手法を3.16-68.54%上回っている。
論文 参考訳(メタデータ) (2024-01-10T09:00:03Z) - Short-Term Multi-Horizon Line Loss Rate Forecasting of a Distribution
Network Using Attention-GCN-LSTM [9.460123100630158]
本稿では,GCN(Graph Convolutional Networks),LSTM(Long Short-Term Memory)と3レベルアテンション機構を組み合わせた新しい手法であるAttention-GCN-LSTMを提案する。
本モデルにより,複数の水平線を横断する線損失率の正確な予測が可能となる。
論文 参考訳(メタデータ) (2023-12-19T06:47:22Z) - Frequency-domain MLPs are More Effective Learners in Time Series
Forecasting [67.60443290781988]
時系列予測は、金融、交通、エネルギー、医療など、さまざまな産業領域において重要な役割を果たしてきた。
最多ベースの予測手法は、ポイントワイドマッピングと情報のボトルネックに悩まされる。
本稿では、時系列予測のための周波数領域上に構築された、シンプルで効果的なアーキテクチャであるFreTSを提案する。
論文 参考訳(メタデータ) (2023-11-10T17:05:13Z) - Hierarchical Forecasting at Scale [55.658563862299495]
既存の階層予測技術は、時系列の数が増加するとスケールが低下する。
我々は,1つのボトムレベル予測モデルを用いて,数百万の時系列のコヒーレントな予測を学習することを提案する。
欧州の大規模なeコマースプラットフォームであるbolの既存の予測モデルにおいて、スパース階層的損失関数を実装した。
論文 参考訳(メタデータ) (2023-10-19T15:06:31Z) - A Distance Correlation-Based Approach to Characterize the Effectiveness of Recurrent Neural Networks for Time Series Forecasting [1.9950682531209158]
距離相関の多元的指標を用いて,RNN成分と時系列特性をリンクする手法を提案する。
RNN活性化層が時系列のラグ構造をよく学習していることを実証的に示す。
また,アクティベーション層は移動平均およびヘテロスケダティック時系列過程を適切にモデル化できないことを示す。
論文 参考訳(メタデータ) (2023-07-28T22:32:08Z) - CARD: Channel Aligned Robust Blend Transformer for Time Series
Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。
まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。
第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。
第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文 参考訳(メタデータ) (2023-05-20T05:16:31Z) - Short-Term Electricity Price Forecasting based on Graph Convolution
Network and Attention Mechanism [5.331757100806177]
本稿では、スペクトルグラフ畳み込みネットワーク(GCN)を調整し、短期LMP予測の精度を大幅に向上させる。
3分岐ネットワーク構造はLMPの構成と一致するように設計されている。
PJMによるIEEE-118テストシステムと実世界のデータに基づくケーススタディにより、提案モデルが既存の予測モデルよりも精度で優れていることが検証された。
論文 参考訳(メタデータ) (2021-07-26T15:44:07Z) - Learning Monocular Visual Odometry via Self-Supervised Long-Term
Modeling [106.15327903038705]
単眼視覚計測(VO)はフレーム・ツー・フレームのポーズ推定時にエラーの蓄積に苦しむ。
本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。
我々は、幾何VOのループ閉鎖モジュールを模倣したサイクル整合損失を含む、純粋に自己監督的な損失でネットワークを訓練する。
論文 参考訳(メタデータ) (2020-07-21T17:59:01Z) - Deep Stock Predictions [58.720142291102135]
本稿では,Long Short Term Memory (LSTM) ニューラルネットワークを用いてポートフォリオ最適化を行うトレーディング戦略の設計について考察する。
次に、LSTMのトレーニングに使用する損失関数をカスタマイズし、利益を上げる。
カスタマイズされた損失関数を持つLSTMモデルは、ARIMAのような回帰ベースライン上でのトレーニングボットの性能を向上させる。
論文 参考訳(メタデータ) (2020-06-08T23:37:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。