論文の概要: Frequency-Aligned Knowledge Distillation for Lightweight Spatiotemporal Forecasting
- arxiv url: http://arxiv.org/abs/2507.02939v2
- Date: Sun, 20 Jul 2025 17:02:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 18:47:38.954879
- Title: Frequency-Aligned Knowledge Distillation for Lightweight Spatiotemporal Forecasting
- Title(参考訳): 軽量時空間予測のための周波数適応型知識蒸留
- Authors: Yuqi Li, Chuanguang Yang, Hansheng Zeng, Zeyu Dong, Zhulin An, Yongjun Xu, Yingli Tian, Hao Wu,
- Abstract要約: 本稿では、複雑な教師モデルからより効率的な軽量学生ネットワークへマルチスケール表現を転送するフレームワーク、Spectral Decoupled Knowledge Distillation (Termed SDKD)を提案する。
このフレームワークは、計算複雑性を低減しつつ、高周波変動と長期トレンドの両方を効果的にキャプチャする。
- 参考スコア(独自算出の注目度): 37.00869900861736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatiotemporal forecasting tasks, such as traffic flow, combustion dynamics, and weather forecasting, often require complex models that suffer from low training efficiency and high memory consumption. This paper proposes a lightweight framework, Spectral Decoupled Knowledge Distillation (termed SDKD), which transfers the multi-scale spatiotemporal representations from a complex teacher model to a more efficient lightweight student network. The teacher model follows an encoder-latent evolution-decoder architecture, where its latent evolution module decouples high-frequency details and low-frequency trends using convolution and Transformer (global low-frequency modeler). However, the multi-layer convolution and deconvolution structures result in slow training and high memory usage. To address these issues, we propose a frequency-aligned knowledge distillation strategy, which extracts multi-scale spectral features from the teacher's latent space, including both high and low frequency components, to guide the lightweight student model in capturing both local fine-grained variations and global evolution patterns. Experimental results show that SDKD significantly improves performance, achieving reductions of up to 81.3% in MSE and in MAE 52.3% on the Navier-Stokes equation dataset. The framework effectively captures both high-frequency variations and long-term trends while reducing computational complexity. Our codes are available at https://github.com/itsnotacie/SDKD
- Abstract(参考訳): 交通流、燃焼力学、気象予報などの時空間予測タスクは、訓練効率の低下とメモリ消費の増大に苦しむ複雑なモデルを必要とすることが多い。
本稿では、複雑な教師モデルからより効率的な学生ネットワークへ、多段階の時空間表現を伝達する軽量なフレームワーク、Spectral Decoupled Knowledge Distillation(SDKD)を提案する。
教師モデルはエンコーダ-遅延進化デコーダアーキテクチャに従い、潜伏進化モジュールは畳み込みとトランスフォーマー(グローバル低周波モデラー)を用いて高周波の詳細と低周波トレンドを分離する。
しかし、多層畳み込み構造と非畳み込み構造は、遅いトレーニングと高いメモリ使用率をもたらす。
これらの課題に対処するために,教師の潜伏空間から高周波数成分と低周波成分を含むマルチスケールのスペクトル特徴を抽出し,局所的な微粒化とグローバルな進化パターンの両方を捉えるために,軽量な学生モデルを指導する周波数整合型知識蒸留手法を提案する。
実験の結果、SDKDは性能を大幅に改善し、MSEでは81.3%、Navier-Stokes方程式データセットでは52.3%まで低下した。
このフレームワークは、計算複雑性を低減しつつ、高周波変動と長期トレンドの両方を効果的にキャプチャする。
私たちのコードはhttps://github.com/itsnotacie/SDKDで利用可能です。
関連論文リスト
- LOGLO-FNO: Efficient Learning of Local and Global Features in Fourier Neural Operators [20.77877474840923]
高周波情報は機械学習における重要な課題である。
ディープニューラルネットワークは、低周波成分の学習に対するいわゆるスペクトルバイアスを示す。
放射結合スペクトル誤差に基づく新しい周波数感受性損失項を提案する。
論文 参考訳(メタデータ) (2025-04-05T19:35:04Z) - FlowDistill: Scalable Traffic Flow Prediction via Distillation from LLMs [5.6685153523382015]
FlowDistillは、大規模言語モデル(LLM)からの知識蒸留に基づく軽量交通予測フレームワークである
その単純さにもかかわらず、FlowDistillは、トレーニングデータを大幅に少なくしながら、予測精度で最先端のモデルを一貫して上回る。
論文 参考訳(メタデータ) (2025-04-02T19:54:54Z) - BEAT: Balanced Frequency Adaptive Tuning for Long-Term Time-Series Forecasting [46.922741972636025]
時系列予測は、天気予報や金融市場モデリングを含む多くの現実世界のアプリケーションにとって不可欠である。
BEAT(Balanced frequency Adaptive Tuning)は、各周波数のトレーニング状況を監視し、勾配更新を適応的に調整する新しいフレームワークである。
BEATは7つの実世界のデータセットの実験において、最先端のアプローチを一貫して上回っている。
論文 参考訳(メタデータ) (2025-01-31T11:52:35Z) - Incremental Spatial and Spectral Learning of Neural Operators for
Solving Large-Scale PDEs [86.35471039808023]
Incrmental Fourier Neural Operator (iFNO)を導入し、モデルが使用する周波数モードの数を徐々に増加させる。
iFNOは、各種データセット間の一般化性能を維持したり改善したりしながら、トレーニング時間を短縮する。
提案手法は,既存のフーリエニューラル演算子に比べて20%少ない周波数モードを用いて,10%低いテスト誤差を示すとともに,30%高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2022-11-28T09:57:15Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。