論文の概要: CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2406.02131v1
- Date: Tue, 4 Jun 2024 09:18:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 17:11:25.853097
- Title: CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting
- Title(参考訳): CondTSF: 時系列予測のためのデータセット凝縮の一行プラグイン
- Authors: Jianrong Ding, Zhanyu Liu, Guanjie Zheng, Haiming Jin, Linghe Kong,
- Abstract要約: データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。
分類において、合成データは、全データセットで訓練されたモデルと合成データセットで訓練されたモデルが同じ入力に対して同一のラベルを生成する場合、よく蒸留されると考えられる。
TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。
- 参考スコア(独自算出の注目度): 22.473436770730657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset condensation is a newborn technique that generates a small dataset that can be used in training deep neural networks to lower training costs. The objective of dataset condensation is to ensure that the model trained with the synthetic dataset can perform comparably to the model trained with full datasets. However, existing methods predominantly concentrate on classification tasks, posing challenges in their adaptation to time series forecasting (TS-forecasting). This challenge arises from disparities in the evaluation of synthetic data. In classification, the synthetic data is considered well-distilled if the model trained with the full dataset and the model trained with the synthetic dataset yield identical labels for the same input, regardless of variations in output logits distribution. Conversely, in TS-forecasting, the effectiveness of synthetic data distillation is determined by the distance between predictions of the two models. The synthetic data is deemed well-distilled only when all data points within the predictions are similar. Consequently, TS-forecasting has a more rigorous evaluation methodology compared to classification. To mitigate this gap, we theoretically analyze the optimization objective of dataset condensation for TS-forecasting and propose a new one-line plugin of dataset condensation designated as Dataset Condensation for Time Series Forecasting (CondTSF) based on our analysis. Plugging CondTSF into previous dataset condensation methods facilitates a reduction in the distance between the predictions of the model trained with the full dataset and the model trained with the synthetic dataset, thereby enhancing performance. We conduct extensive experiments on eight commonly used time series datasets. CondTSF consistently improves the performance of all previous dataset condensation methods across all datasets, particularly at low condensing ratios.
- Abstract(参考訳): Dataset Condensationは、ディープラーニングのトレーニングに使用できる小さなデータセットを生成して、トレーニングコストを削減できる、生まれたばかりのテクニックだ。
データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。
しかし、既存の手法は主に分類タスクに集中しており、時系列予測(TS予測)への適応に挑戦している。
この課題は、合成データの評価における相違から生じる。
分類において、合成データは、全データセットで訓練されたモデルと、合成データセットで訓練されたモデルが、出力ロジット分布のばらつきにかかわらず、同一のラベルを同じ入力のために生成した場合、よく蒸留されると考えられる。
逆に, TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。
合成データは、予測内のすべてのデータポイントが類似している場合にのみよく蒸留される。
その結果,TS予測は分類よりも厳密な評価手法が得られた。
このギャップを緩和するため,TS予測のためのデータセット凝縮の最適化目標を理論的に分析し,時系列予測のためのデータセット凝縮(CondTSF)として指定されたデータセット凝縮の1行プラグインを提案する。
CondTSFを以前のデータセット凝縮法にプラグインすることで、完全なデータセットでトレーニングされたモデルの予測と合成データセットでトレーニングされたモデルとの距離の短縮が容易になり、パフォーマンスが向上する。
一般的に用いられている8つの時系列データセットについて広範な実験を行う。
CondTSFは、すべてのデータセット、特に低凝縮率において、以前のデータセット凝縮メソッドのパフォーマンスを一貫して改善する。
関連論文リスト
- Calibrated Dataset Condensation for Faster Hyperparameter Search [23.790315967011345]
最先端のアプローチは、実データと合成データの間のモデル勾配のマッチングに依存する。
本稿では,ハイパーパラメータ探索を対象とする異なる凝縮目標について考察する。
論文 参考訳(メタデータ) (2024-05-27T17:55:01Z) - Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Sequential Subset Matching for Dataset Distillation [44.322842898670565]
我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。
解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。
私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
論文 参考訳(メタデータ) (2023-11-02T19:49:11Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。
データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。
本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-30T09:55:31Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。