論文の概要: SPAT: Sensitivity-based Multihead-attention Pruning on Time Series Forecasting Models
- arxiv url: http://arxiv.org/abs/2505.08768v1
- Date: Tue, 13 May 2025 17:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.692693
- Title: SPAT: Sensitivity-based Multihead-attention Pruning on Time Series Forecasting Models
- Title(参考訳): SPAT:時系列予測モデルに基づく感性に基づくマルチヘッドアテンションプルーニング
- Authors: Suhan Guo, Jiahong Deng, Mengjun Yi, Furao Shen, Jian Zhao,
- Abstract要約: 本研究では,SPAT(textbfS$ensitivity $textbfP$runer for $textbfAt$tention)という構造化プルーニング手法を提案する。
データセットの実験では、SPATで処理されたモデルはMSEで2.842%、MAEで1.996%、FLOPで35.274%の削減を達成した。
- 参考スコア(独自算出の注目度): 8.817690876855728
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Attention-based architectures have achieved superior performance in multivariate time series forecasting but are computationally expensive. Techniques such as patching and adaptive masking have been developed to reduce their sizes and latencies. In this work, we propose a structured pruning method, SPAT ($\textbf{S}$ensitivity $\textbf{P}$runer for $\textbf{At}$tention), which selectively removes redundant attention mechanisms and yields highly effective models. Different from previous approaches, SPAT aims to remove the entire attention module, which reduces the risk of overfitting and enables speed-up without demanding specialized hardware. We propose a dynamic sensitivity metric, $\textbf{S}$ensitivity $\textbf{E}$nhanced $\textbf{N}$ormalized $\textbf{D}$ispersion (SEND) that measures the importance of each attention module during the pre-training phase. Experiments on multivariate datasets demonstrate that SPAT-pruned models achieve reductions of 2.842% in MSE, 1.996% in MAE, and 35.274% in FLOPs. Furthermore, SPAT-pruned models outperform existing lightweight, Mamba-based and LLM-based SOTA methods in both standard and zero-shot inference, highlighting the importance of retaining only the most effective attention mechanisms. We have made our code publicly available https://anonymous.4open.science/r/SPAT-6042.
- Abstract(参考訳): 注意に基づくアーキテクチャは、多変量時系列予測において優れた性能を達成しているが、計算コストが高い。
パッチや適応マスキングなどの技術は、そのサイズとレイテンシを低減するために開発されている。
本研究では、冗長な注意機構を選択的に除去し、高効率なモデルを生成する構造化プルーニング法SPAT(\textbf{S}$ensitivity $\textbf{P}$runer for $\textbf{At}$tention)を提案する。
従来のアプローチとは異なり、SPATは注意モジュール全体を削除し、オーバーフィットのリスクを低減し、特別なハードウェアを必要とせずにスピードアップを可能にする。
トレーニング前の段階で各アテンションモジュールの重要性を測定する動的感度計量である $\textbf{S}$ensitivity $\textbf{E}$nhanced $\textbf{N}$ormalized $\textbf{D}$ispersion (SEND) を提案する。
多変量データセットの実験では、SPATで処理されたモデルは、MSEで2.842%、MAEで1.996%、FLOPで35.274%の削減を達成した。
さらに、SPATで処理されたモデルは、標準およびゼロショット推論の両方において、既存の軽量、マンバベースおよびLLMベースのSOTA法よりも優れており、最も効果的な注意機構のみを保持することの重要性を強調している。
コードを公開しました。https://anonymous.4open.science/r/SPAT-6042。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Samoyeds: Accelerating MoE Models with Structured Sparsity Leveraging Sparse Tensor Cores [13.089178890203652]
本稿ではスパースコア(SpTC)を利用したMOE LLMの革新的加速システムであるSamoyedsについて述べる。
また、MoE計算に適したスパースデータフォーマットを導入し、特別なスパーススパース行列乗算カーネルを開発する。
評価によると、SOTAはカーネルレベルでは1.99$times$、モデルレベルでは1.58$times$より優れている。
論文 参考訳(メタデータ) (2025-03-13T10:34:15Z) - RAM: Replace Attention with MLP for Efficient Multivariate Time Series Forecasting [21.7023262988233]
本稿では, フィードフォワード層, 残差接続, 層正規化のみを用いて, 注意機構を近似する新しいプルーニング手法を提案する。
RAMは、性能低下が2.5%未満のテンポラルモデルのFLOPを62579%削減し、性能低下が2%未満のテンポラルモデルのFLOPを42.233%削減した。
論文 参考訳(メタデータ) (2024-10-31T15:23:34Z) - Rodimus*: Breaking the Accuracy-Efficiency Trade-Off with Efficient Attentions [26.025283259518936]
RodimusはTransformerベースの大規模言語モデル(LLM)のための新しいタイプのアテンションシステムである。
Rodimusは、線形アテンションベースで純粋にリカレントなフレームワーク内で、データ依存のテンプレート選択機構を採用している。
実験の結果,1兆トークンでトレーニングしたRodimus$+$-1.6Bは,より多くのトークンでトレーニングしたモデルに対して,より優れたダウンストリーム性能を実現することがわかった。
論文 参考訳(メタデータ) (2024-10-09T06:22:36Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models [29.863953001061635]
拡散モデル(DM)は高品質で多様な画像を生成する上で優れた性能を示した。
既存の作業は主にDM効率を高めるためのトレーニングプロセスを採用している。
本稿では,アテンション駆動型トレーニングフリー効率拡散モデル (AT-EDM) フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-08T17:56:47Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。
The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。
実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文 参考訳(メタデータ) (2024-03-22T14:20:34Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。