Fugu-MT 論文翻訳(概要): RAM: Replace Attention with MLP for Efficient Multivariate Time Series Forecasting

論文の概要: RAM: Replace Attention with MLP for Efficient Multivariate Time Series Forecasting

arxiv url: http://arxiv.org/abs/2410.24023v2
Date: Sat, 10 May 2025 08:10:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 14:13:12.488399
Title: RAM: Replace Attention with MLP for Efficient Multivariate Time Series Forecasting
Title（参考訳）: RAM: 効率的な多変量時系列予測のためのMPPによるアテンション変更
Authors: Suhan Guo, Jiahong Deng, Yi Wei, Hui Dou, Furao Shen, Jian Zhao,
Abstract要約: 本稿では, フィードフォワード層, 残差接続, 層正規化のみを用いて, 注意機構を近似する新しいプルーニング手法を提案する。 RAMは、性能低下が2.5%未満のテンポラルモデルのFLOPを62579%削減し、性能低下が2%未満のテンポラルモデルのFLOPを42.233%削減した。
参考スコア（独自算出の注目度）: 21.7023262988233
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Attention-based architectures have become ubiquitous in time series forecasting tasks, including spatio-temporal (STF) and long-term time series forecasting (LTSF). Yet, our understanding of the reasons for their effectiveness remains limited. In this work, we propose a novel pruning strategy, $\textbf{R}$eplace $\textbf{A}$ttention with $\textbf{M}$LP (RAM), that approximates the attention mechanism using only feedforward layers, residual connections, and layer normalization for temporal and/or spatial modeling in multivariate time series forecasting. Specifically, the Q, K, and V projections, the attention score calculation, the dot-product between the attention score and the V, and the final projection can be removed from the attention-based networks without significantly degrading the performance, so that the given network remains the top-tier compared to other SOTA methods. RAM achieves a $62.579\%$ reduction in FLOPs for spatio-temporal models with less than $2.5\%$ performance drop, and a $42.233\%$ FLOPs reduction for LTSF models with less than $2\%$ performance drop.
Abstract（参考訳）: 注意に基づくアーキテクチャは、時空間(STF)や長期時系列予測(LTSF)など、時系列予測タスクにおいてユビキタスになっている。しかし、その効果の理由に関する我々の理解は依然として限られている。本研究では,多変量時系列予測における時間的・空間的モデリングのための,フィードフォワード層,残差接続,層正規化のみを用いた注意機構を近似した新しいプルーニング戦略である$\textbf{R}$eplace $\textbf{A}$ttention with $\textbf{M}$LP (RAM)を提案する。具体的には、Q,K,Vプロジェクション、アテンションスコア計算、アテンションスコアとVの間のドット積、そして最終プロジェクションを、パフォーマンスを著しく劣化させることなく、アテンションベースネットワークから取り外し、与えられたネットワークが他のSOTA手法と比較して最上位に留まるようにする。 RAMは、性能低下が2.5セント未満の時空間モデルのFLOPを6.2.579セント未満で、性能低下が2セント未満のLTSFモデルのFLOPを42.233セントで還元する。

関連論文リスト

SPAT: Sensitivity-based Multihead-attention Pruning on Time Series Forecasting Models [8.817690876855728]
本研究では,SPAT(textbfS$ensitivity $textbfP$runer for $textbfAt$tention)という構造化プルーニング手法を提案する。データセットの実験では、SPATで処理されたモデルはMSEで2.842%、MAEで1.996%、FLOPで35.274%の削減を達成した。
論文参考訳（メタデータ） (2025-05-13T17:39:31Z)
SWIFT: Mapping Sub-series with Wavelet Decomposition Improves Time Series Forecasting [2.6764607949560593]
$textitSWIFT$は軽量モデルで、強力だが、長期の時系列予測のデプロイメントと推論にも効率的である。我々は包括的実験を行い、この結果から、textitSWIFT$が複数のデータセット上での最先端(SOTA)性能を達成することを示す。
論文参考訳（メタデータ） (2025-01-27T16:26:07Z)
Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文参考訳（メタデータ） (2024-10-11T04:57:48Z)
MixLinear: Extreme Low Resource Multivariate Time Series Forecasting with 0.1K Parameters [6.733646592789575]
時系列予測(LTSF)は、パターンや傾向を特定するために、大量の時系列データを分析することによって、長期的な価値を予測する。トランスフォーマーベースのモデルは高い予測精度を提供するが、ハードウェア制約のあるデバイスにデプロイするには計算集約的すぎることが多い。資源制約のあるデバイスに特化して設計された超軽量時系列予測モデルであるMixLinearを提案する。
論文参考訳（メタデータ） (2024-10-02T23:04:57Z)
Boosting MLPs with a Coarsening Strategy for Long-Term Time Series Forecasting [6.481470306093991]
ディープラーニング手法は,長期連続予測においてその強みを発揮してきた。彼らはしばしば表現力と計算効率のバランスをとるのに苦労する。本稿では,情報グラニュラーを単独の時間点の代わりに形成することにより,プロトタイプに関わる問題を緩和する粗大化戦略を提案する。純粋な構造的単純さの畳み込みに基づいて、CP-Netは線形計算の複雑さとランタイムの低さを維持しつつ、7つの予測ベンチマークでSOTA法と比較すると4.1%の改善を示した。
論文参考訳（メタデータ） (2024-05-06T06:47:44Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
HiMTM: Hierarchical Multi-Scale Masked Time Series Modeling with Self-Distillation for Long-Term Forecasting [17.70984737213973]
HiMTMは長期予測のための自己蒸留を用いた階層型マルチスケールマスク時系列モデリングである。 HiMTMは,(1)階層型マルチスケールトランスフォーマー (HMT) と,2) エンコーダを特徴抽出へ向ける分離エンコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダ(DED)デコンダデコーダデコンダデコーダデコーダデコーダデコンダデコーダ(DED) の4つのキーコンポーネントを統合する。 7つの主流データセットの実験によると、HiMTMは最先端の自己教師とエンドツーエンドの学習手法を3.16-68.54%上回っている。
論文参考訳（メタデータ） (2024-01-10T09:00:03Z)
Short-Term Multi-Horizon Line Loss Rate Forecasting of a Distribution Network Using Attention-GCN-LSTM [9.460123100630158]
本稿では,GCN(Graph Convolutional Networks),LSTM(Long Short-Term Memory)と3レベルアテンション機構を組み合わせた新しい手法であるAttention-GCN-LSTMを提案する。本モデルにより,複数の水平線を横断する線損失率の正確な予測が可能となる。
論文参考訳（メタデータ） (2023-12-19T06:47:22Z)
TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文参考訳（メタデータ） (2023-11-27T12:59:52Z)
Frequency-domain MLPs are More Effective Learners in Time Series Forecasting [67.60443290781988]
時系列予測は、金融、交通、エネルギー、医療など、さまざまな産業領域において重要な役割を果たしてきた。最多ベースの予測手法は、ポイントワイドマッピングと情報のボトルネックに悩まされる。本稿では、時系列予測のための周波数領域上に構築された、シンプルで効果的なアーキテクチャであるFreTSを提案する。
論文参考訳（メタデータ） (2023-11-10T17:05:13Z)
Hierarchical Forecasting at Scale [55.658563862299495]
既存の階層予測技術は、時系列の数が増加するとスケールが低下する。我々は,1つのボトムレベル予測モデルを用いて,数百万の時系列のコヒーレントな予測を学習することを提案する。欧州の大規模なeコマースプラットフォームであるbolの既存の予測モデルにおいて、スパース階層的損失関数を実装した。
論文参考訳（メタデータ） (2023-10-19T15:06:31Z)
A Distance Correlation-Based Approach to Characterize the Effectiveness of Recurrent Neural Networks for Time Series Forecasting [1.9950682531209158]
距離相関の多元的指標を用いて,RNN成分と時系列特性をリンクする手法を提案する。 RNN活性化層が時系列のラグ構造をよく学習していることを実証的に示す。また,アクティベーション層は移動平均およびヘテロスケダティック時系列過程を適切にモデル化できないことを示す。
論文参考訳（メタデータ） (2023-07-28T22:32:08Z)
Unlocking the Potential of Deep Learning in Peak-Hour Series Forecasting [19.396667925659507]
本稿では,Pak-Hour Series Forecasting (PHSF)タスクに特化して設計された新しいフレームワークであるSeq2Peakについて述べる。非定常性問題を緩和するCyclicNormパイプラインと、シンプルだが効果的なトレーニング可能なパラメータフリーのピーク時デコーダの2つの重要なコンポーネントを提供する。公開されている時系列データセットの実験は、提案フレームワークの有効性を実証している。
論文参考訳（メタデータ） (2023-07-04T09:38:38Z)
CARD: Channel Aligned Robust Blend Transformer for Time Series Forecasting [50.23240107430597]
本稿では,CARD(Channel Aligned Robust Blend Transformer)という特殊なトランスを設計する。まず、CARDはチャネルに沿ったアテンション構造を導入し、信号間の時間的相関をキャプチャする。第二に、マルチスケール知識を効率的に活用するために、異なる解像度のトークンを生成するトークンブレンドモジュールを設計する。第3に,潜在的な過度な問題を軽減するため,時系列予測のためのロバストな損失関数を導入する。
論文参考訳（メタデータ） (2023-05-20T05:16:31Z)
Short-Term Electricity Price Forecasting based on Graph Convolution Network and Attention Mechanism [5.331757100806177]
本稿では、スペクトルグラフ畳み込みネットワーク(GCN)を調整し、短期LMP予測の精度を大幅に向上させる。 3分岐ネットワーク構造はLMPの構成と一致するように設計されている。 PJMによるIEEE-118テストシステムと実世界のデータに基づくケーススタディにより、提案モデルが既存の予測モデルよりも精度で優れていることが検証された。
論文参考訳（メタデータ） (2021-07-26T15:44:07Z)
A Novel Approach for Classification and Forecasting of Time Series in Particle Accelerators [52.77024349608834]
高強度陽子加速器複合体におけるビーム時間損失を低減するために,新しい時系列分類手法を適用した。 ROC曲線値が0.71 pm 0.01$のエリアに到達し、ランダムフォレストモデルの0.65 pm 0.01$と比較した。
論文参考訳（メタデータ） (2021-02-01T11:53:14Z)
Learning Monocular Visual Odometry via Self-Supervised Long-Term Modeling [106.15327903038705]
単眼視覚計測(VO)はフレーム・ツー・フレームのポーズ推定時にエラーの蓄積に苦しむ。本稿では,より長いシーケンスの一貫性を考慮したVOの自己教師付き学習手法を提案する。我々は、幾何VOのループ閉鎖モジュールを模倣したサイクル整合損失を含む、純粋に自己監督的な損失でネットワークを訓練する。
論文参考訳（メタデータ） (2020-07-21T17:59:01Z)
Deep Stock Predictions [58.720142291102135]
本稿では,Long Short Term Memory (LSTM) ニューラルネットワークを用いてポートフォリオ最適化を行うトレーディング戦略の設計について考察する。次に、LSTMのトレーニングに使用する損失関数をカスタマイズし、利益を上げる。カスタマイズされた損失関数を持つLSTMモデルは、ARIMAのような回帰ベースライン上でのトレーニングボットの性能を向上させる。
論文参考訳（メタデータ） (2020-06-08T23:37:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。