論文の概要: Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression
- arxiv url: http://arxiv.org/abs/2603.10410v1
- Date: Wed, 11 Mar 2026 04:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.783996
- Title: Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression
- Title(参考訳): 2次元圧縮による時空間予測のための効果的なデータセット蒸留法
- Authors: Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung Shin,
- Abstract要約: 本稿では,S時間時系列予測のための最初のデータセット蒸留法STemDistを提案する。
我々のソリューションのキーとなる考え方は、時間と空間の両次元をバランスよく圧縮し、トレーニング時間と記憶時間を短縮することである。
- 参考スコア(独自算出の注目度): 26.189594254326334
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spatio-temporal time series are widely used in real-world applications, including traffic prediction and weather forecasting. They are sequences of observations over extensive periods and multiple locations, naturally represented as multidimensional data. Forecasting is a central task in spatio-temporal analysis, and numerous deep learning methods have been developed to address it. However, as dataset sizes and model complexities continue to grow in practice, training deep learning models has become increasingly time- and resource-intensive. A promising solution to this challenge is dataset distillation, which synthesizes compact datasets that can effectively replace the original data for model training. Although successful in various domains, including time series analysis, existing dataset distillation methods compress only one dimension, making them less suitable for spatio-temporal datasets, where both spatial and temporal dimensions jointly contribute to the large data volume. To address this limitation, we propose STemDist, the first dataset distillation method specialized for spatio-temporal time series forecasting. A key idea of our solution is to compress both temporal and spatial dimensions in a balanced manner, reducing training time and memory. We further reduce the distillation cost by performing distillation at the cluster level rather than the individual location level, and we complement this coarse-grained approach with a subset-based granular distillation technique that enhances forecasting performance. On five real-world datasets, we show empirically that, compared to both general and time-series dataset distillation methods, datasets distilled by our STemDist method enable model training (1) faster (up to 6X) (2) more memory-efficient (up to 8X), and (3) more effective (with up to 12% lower prediction error).
- Abstract(参考訳): 時空間の時系列は、交通予報や天気予報など、現実世界のアプリケーションで広く使われている。
これらは、多次元データとして自然に表される、広範囲の周期と複数の位置にわたる観測のシーケンスである。
予測は時空間分析において中心的な課題であり、それに対応するために多くのディープラーニング手法が開発されている。
しかし、データセットのサイズやモデル複雑度が実際に増加し続けるにつれ、ディープラーニングモデルのトレーニングは時間とリソースの集約化が進んでいる。
この課題に対する有望な解決策はデータセットの蒸留であり、モデルトレーニングのために元のデータを効果的に置き換えることのできるコンパクトなデータセットを合成する。
時系列分析を含む様々な領域で成功したが、既存のデータセット蒸留法は1次元のみを圧縮し、空間次元と時間次元の両方が大きなデータボリュームに共寄与する時空間データセットには適さない。
この制限に対処するため,時空間時系列予測に特化した最初のデータセット蒸留法であるSTemDistを提案する。
我々のソリューションのキーとなる考え方は、時間と空間の両次元をバランスよく圧縮し、トレーニング時間と記憶時間を短縮することである。
我々は, 個々の位置ではなく, クラスターレベルで蒸留を行うことにより蒸留コストをさらに削減し, この粗粒化手法を, 予測性能を高めるサブセットベースグラニュラー蒸留技術で補完する。
実世界の5つのデータセットにおいて、一般および時系列のデータセット蒸留法と比較して、STemDist法で蒸留したデータセットは、(1)より高速(最大6倍)、(2)よりメモリ効率が良く(最大8倍)、(3)より効果的(最大12%低い予測誤差)であることが実証的に示されている。
関連論文リスト
- DDTime: Dataset Distillation with Spectral Alignment and Information Bottleneck for Time-Series Forecasting [28.005308500582405]
時系列予測は多くの領域で基本となっているが、正確なモデルを訓練するには大規模なデータセットと計算資源が必要となることが多い。
本稿では,一階凝縮分解に基づく軽量・プラグイン蒸留フレームワークDDTimeを提案する。
DDTimeは既存の蒸留法を一貫して上回り、約30%の精度向上を実現し、約2.49%の計算オーバーヘッドを導入した。
論文 参考訳(メタデータ) (2025-11-20T16:50:09Z) - Dataset Distillation as Pushforward Optimal Quantization [2.5892916589735457]
そこで本研究では,実データ上での学習に類似した性能を,桁違いに少ない計算量で実現した合成トレーニングセットを提案する。
特に、既存の非絡み合ったデータセット蒸留法を古典的最適量子化とワッサーシュタインのバリセンタ問題にリンクする。
我々は,ImageNet-1Kデータセットの性能向上とモデル間一般化を,より簡単な追加計算で実現し,より高階のイメージ・パー・クラス・セッティングにおけるSOTA性能を向上する。
論文 参考訳(メタデータ) (2025-01-13T20:41:52Z) - Hierarchical Features Matter: A Deep Exploration of Progressive Parameterization Method for Dataset Distillation [44.03611131165989]
階層型生成蒸留(H-PD)と呼ばれる新しい生成パラメータ化法を提案する。
提案したH-PDは、等価な時間消費で様々な設定で大幅な性能向上を実現している。
IPC=1, IPC=10の超過圧縮比下での拡散モデルを用いて, 現在の再生蒸留を超越している。
論文 参考訳(メタデータ) (2024-06-09T09:15:54Z) - Generative Dataset Distillation: Balancing Global Structure and Local Details [49.20086587208214]
グローバルな構造と局所的な詳細のバランスを考慮に入れた新しいデータセット蒸留法を提案する。
本手法では, 条件付き生成逆数ネットワークを用いて蒸留したデータセットを生成する。
論文 参考訳(メタデータ) (2024-04-26T23:46:10Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。