論文の概要: TimeDistill: Efficient Long-Term Time Series Forecasting with MLP via Cross-Architecture Distillation
- arxiv url: http://arxiv.org/abs/2502.15016v1
- Date: Thu, 20 Feb 2025 20:12:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 19:42:21.744200
- Title: TimeDistill: Efficient Long-Term Time Series Forecasting with MLP via Cross-Architecture Distillation
- Title(参考訳): TimeDistill: クロスアーキテクチャ蒸留によるMDPによる効率的な長期時系列予測
- Authors: Juntong Ni, Zewen Liu, Shiyu Wang, Ming Jin, Wei Jin,
- Abstract要約: トランスフォーマーベースおよびCNNベースの手法は、長期予測シリーズにおいて強い性能を示す。
我々は知識蒸留(KD)を用いた軽量蒸留と先進的アーキテクチャの統合を提案する。
TimeDistillは最大18.6%パフォーマンスを改善し、8つのデータセットの教師モデルを上回っている。
- 参考スコア(独自算出の注目度): 9.096725815315775
- License:
- Abstract: Transformer-based and CNN-based methods demonstrate strong performance in long-term time series forecasting. However, their high computational and storage requirements can hinder large-scale deployment. To address this limitation, we propose integrating lightweight MLP with advanced architectures using knowledge distillation (KD). Our preliminary study reveals different models can capture complementary patterns, particularly multi-scale and multi-period patterns in the temporal and frequency domains. Based on this observation, we introduce TimeDistill, a cross-architecture KD framework that transfers these patterns from teacher models (e.g., Transformers, CNNs) to MLP. Additionally, we provide a theoretical analysis, demonstrating that our KD approach can be interpreted as a specialized form of mixup data augmentation. TimeDistill improves MLP performance by up to 18.6%, surpassing teacher models on eight datasets. It also achieves up to 7X faster inference and requires 130X fewer parameters. Furthermore, we conduct extensive evaluations to highlight the versatility and effectiveness of TimeDistill.
- Abstract(参考訳): トランスフォーマーベースおよびCNNベースの手法は,長期連続予測において高い性能を示す。
しかし、その高い計算とストレージの要求は、大規模なデプロイメントを妨げる可能性がある。
この制限に対処するため,知識蒸留(KD)を用いた軽量MPPと高度なアーキテクチャの統合を提案する。
予備研究により,時間領域および周波数領域における相補的パターン,特にマルチスケールおよびマルチ周期パターンを捉えることが可能であることが判明した。
本報告では,これらのパターンを教師モデル(例えば,トランスフォーマー,CNN)からMLPに転送する,クロスアーキテクチャKDフレームワークであるTimeDistillを紹介する。
さらに、我々は、KDアプローチをミックスアップデータ拡張の特殊な形式として解釈できることを示す理論的解析を提供する。
TimeDistillはMLPのパフォーマンスを最大18.6%改善し、8つのデータセットの教師モデルを上回っている。
また、最大7倍高速な推論を実現し、130倍少ないパラメータを必要とする。
さらに,TimeDistillの汎用性と有効性を明らかにするために,広範囲な評価を行う。
関連論文リスト
- Beyond Autoregression: Fast LLMs via Self-Distillation Through Time [1.5858234832499587]
拡散言語モデルでは,テキスト品質およびLAMBADA自然言語理解ベンチマークにおいて,少なくとも32個のトークンを同時に生成できることを示す。
実際には、1.3Bパラメータスケールでは、キャッシュなしでも拡散モデルはKVキャッシュを使用するARモデルよりも最大8倍高速なトークンを生成することができる。
論文 参考訳(メタデータ) (2024-10-28T13:56:30Z) - UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。
U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。
UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文 参考訳(メタデータ) (2024-10-15T04:56:43Z) - Test Time Learning for Time Series Forecasting [1.4605709124065924]
テストタイムトレーニング(TTT)モジュールは、MambaベースのTimeMachineなど、最先端モデルよりも一貫して優れている。
その結果,平均二乗誤差 (MSE) と平均絶対誤差 (MAE) に有意な改善が認められた。
この研究は、時系列予測の新しいベンチマークを設定し、スケーラブルで高性能な予測モデルにおける将来の研究の基礎を定めている。
論文 参考訳(メタデータ) (2024-09-21T04:40:08Z) - Adaptive Multi-Scale Decomposition Framework for Time Series Forecasting [26.141054975797868]
時系列予測(TSF)のための新しい適応型マルチスケール分解(AMD)フレームワークを提案する。
我々のフレームワークは時系列を複数のスケールで異なる時間パターンに分解し、MDM(Multi-Scale Decomposable Mixing)ブロックを活用する。
提案手法は,時間依存性とチャネル依存性の両方を効果的にモデル化し,マルチスケールデータ統合を改良するために自己相関を利用する。
論文 参考訳(メタデータ) (2024-06-06T05:27:33Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z) - TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models [52.454274602380124]
拡散モデルは非常に時間ステップ$t$に大きく依存し、良好なマルチラウンドデノジングを実現している。
本稿では,時間情報ブロック上に構築した時間的特徴保守量子化(TFMQ)フレームワークを提案する。
先駆的なブロック設計により、時間情報認識再構成(TIAR)と有限集合キャリブレーション(FSC)を考案し、完全な時間的特徴を整列させる。
論文 参考訳(メタデータ) (2023-11-27T12:59:52Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - An Attention Free Long Short-Term Memory for Time Series Forecasting [0.0]
本研究では,より効率的なフレームワークであるアテンションフリー機構を用いた時系列予測に着目し,時系列予測のための新しいアーキテクチャを提案する。
本研究では,無注意LSTM層を用いて,条件分散予測のための線形モデルを克服するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-20T08:23:49Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z) - Learning to Efficiently Sample from Diffusion Probabilistic Models [49.58748345998702]
Denoising Diffusion Probabilistic Models (DDPM) は、様々な領域にわたる高忠実度サンプルと競合する対数類似度が得られる。
我々は,事前学習したDDPMに対して最適な離散時間スケジュールを求める,正確な動的プログラミングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-07T17:15:07Z) - Transformer Hawkes Process [79.16290557505211]
本稿では,長期的依存関係を捕捉する自己認識機構を利用したTransformer Hawkes Process (THP) モデルを提案する。
THPは、有意なマージンによる可能性と事象予測の精度の両方の観点から、既存のモデルより優れている。
本稿では、THPが関係情報を組み込む際に、複数の点過程を学習する際の予測性能の改善を実現する具体例を示す。
論文 参考訳(メタデータ) (2020-02-21T13:48:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。