Fugu-MT 論文翻訳(概要): CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting

論文の概要: CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting

arxiv url: http://arxiv.org/abs/2406.02131v4
Date: Wed, 23 Oct 2024 16:05:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.240157
Title: CondTSF: One-line Plugin of Dataset Condensation for Time Series Forecasting
Title（参考訳）: CondTSF: 時系列予測のためのデータセット凝縮の一行プラグイン
Authors: Jianrong Ding, Zhanyu Liu, Guanjie Zheng, Haiming Jin, Linghe Kong,
Abstract要約: データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。分類において、合成データは、全データセットで訓練されたモデルと合成データセットで訓練されたモデルが同じ入力に対して同一のラベルを生成する場合、よく蒸留されると考えられる。 TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。
参考スコア（独自算出の注目度）: 22.473436770730657
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dataset condensation is a newborn technique that generates a small dataset that can be used in training deep neural networks to lower training costs. The objective of dataset condensation is to ensure that the model trained with the synthetic dataset can perform comparably to the model trained with full datasets. However, existing methods predominantly concentrate on classification tasks, posing challenges in their adaptation to time series forecasting (TS-forecasting). This challenge arises from disparities in the evaluation of synthetic data. In classification, the synthetic data is considered well-distilled if the model trained with the full dataset and the model trained with the synthetic dataset yield identical labels for the same input, regardless of variations in output logits distribution. Conversely, in TS-forecasting, the effectiveness of synthetic data distillation is determined by the distance between predictions of the two models. The synthetic data is deemed well-distilled only when all data points within the predictions are similar. Consequently, TS-forecasting has a more rigorous evaluation methodology compared to classification. To mitigate this gap, we theoretically analyze the optimization objective of dataset condensation for TS-forecasting and propose a new one-line plugin of dataset condensation designated as Dataset Condensation for Time Series Forecasting (CondTSF) based on our analysis. Plugging CondTSF into previous dataset condensation methods facilitates a reduction in the distance between the predictions of the model trained with the full dataset and the model trained with the synthetic dataset, thereby enhancing performance. We conduct extensive experiments on eight commonly used time series datasets. CondTSF consistently improves the performance of all previous dataset condensation methods across all datasets, particularly at low condensing ratios.
Abstract（参考訳）: Dataset Condensationは、ディープラーニングのトレーニングに使用できる小さなデータセットを生成して、トレーニングコストを削減できる、生まれたばかりのテクニックだ。データセット凝縮の目的は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルと互換性を持って動作できることを保証することである。しかし、既存の手法は主に分類タスクに集中しており、時系列予測(TS予測)への適応に挑戦している。この課題は、合成データの評価における相違から生じる。分類において、合成データは、全データセットで訓練されたモデルと、合成データセットで訓練されたモデルが、出力ロジット分布のばらつきにかかわらず、同一のラベルを同じ入力のために生成した場合、よく蒸留されると考えられる。逆に, TS予測において, 合成データ蒸留の有効性は, モデル間の距離によって決定される。合成データは、予測内のすべてのデータポイントが類似している場合にのみよく蒸留される。その結果,TS予測は分類よりも厳密な評価手法が得られた。このギャップを緩和するため,TS予測のためのデータセット凝縮の最適化目標を理論的に分析し,時系列予測のためのデータセット凝縮(CondTSF)として指定されたデータセット凝縮の1行プラグインを提案する。 CondTSFを以前のデータセット凝縮法にプラグインすることで、完全なデータセットでトレーニングされたモデルの予測と合成データセットでトレーニングされたモデルとの距離の短縮が容易になり、パフォーマンスが向上する。一般的に用いられている8つの時系列データセットについて広範な実験を行う。 CondTSFは、すべてのデータセット、特に低凝縮率において、以前のデータセット凝縮メソッドのパフォーマンスを一貫して改善する。

関連論文リスト

Dataset Distillation for Pre-Trained Self-Supervised Vision Models [43.50190223507616]
データセットの蒸留は、モデルのトレーニングが実際のサンプルのより大きなデータセットでトレーニングされた同じモデルのパフォーマンスを再現するような、小さな合成画像のセットを見つけることを目的としている。線形勾配マッチング(Linear Gradient Matching)と呼ばれる課題に対して,データセットの蒸留法を導入する。提案手法は,すべての実像ベースラインを上回り,事前学習された視覚モデルに対して顕著に一般化する合成データを生成する。
論文参考訳（メタデータ） (2025-11-20T18:59:57Z)
Rectified Decoupled Dataset Distillation: A Closer Look for Fair and Comprehensive Evaluation [36.444254126901065]
本稿では,コンパクトな合成データセットを生成するために,Rectified Decoupled dataset Distillation (RD$3$)を提案する。 RD$3$は、将来のデータセット蒸留研究における公正かつ再現可能な比較の基礎を提供する。
論文参考訳（メタデータ） (2025-09-24T03:47:04Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Dataset Distillation as Pushforward Optimal Quantization [1.039189397779466]
そこで本稿では,ImageNet-1Kデータセットの性能向上を目的とした,最先端データ蒸留法D4Mの簡易拡張を提案する。エンコーダ・デコーダ構造を組み込んだ場合、実験的に成功した不整合法を最適な量子化問題として再定義できることを実証する。特に, 既存の不整合データセット蒸留法を古典的最適量子化法とワッサーシュタインバリセンタ問題にリンクし, 拡散型生成前処理のための蒸留データセットの整合性を示す。
論文参考訳（メタデータ） (2025-01-13T20:41:52Z)
Going Beyond Feature Similarity: Effective Dataset distillation based on Class-aware Conditional Mutual Information [43.44508080585033]
本稿では,データセットのクラス認識複雑性を評価するために,条件付き相互情報(CMI)を導入する。合成データセットのクラス認識複雑性を制約しながら,蒸留損失を最小限に抑える。
論文参考訳（メタデータ） (2024-12-13T08:10:47Z)
Calibrated Dataset Condensation for Faster Hyperparameter Search [23.790315967011345]
最先端のアプローチは、実データと合成データの間のモデル勾配のマッチングに依存する。本稿では,ハイパーパラメータ探索を対象とする異なる凝縮目標について考察する。
論文参考訳（メタデータ） (2024-05-27T17:55:01Z)
Group Distributionally Robust Dataset Distillation with Risk Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文参考訳（メタデータ） (2024-02-07T09:03:04Z)
Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文参考訳（メタデータ） (2024-01-29T03:29:39Z)
Sequential Subset Matching for Dataset Distillation [44.322842898670565]
我々はSeqMatch(Sequential Subset Matching)と呼ばれる新しいデータセット蒸留戦略を提案する。解析の結果,SeqMatchは合成インスタンスを逐次生成することで,結合問題に効果的に対処できることが示唆された。私たちのコードはhttps://github.com/shqii1j/seqmatch.comから入手可能です。
論文参考訳（メタデータ） (2023-11-02T19:49:11Z)
Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。 PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文参考訳（メタデータ） (2023-10-10T20:04:44Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-30T09:55:31Z)
Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (2022-03-22T17:58:59Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。