論文の概要: Optimizing the Training Diet: Data Mixture Search for Robust Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2512.11546v1
- Date: Fri, 12 Dec 2025 13:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.78152
- Title: Optimizing the Training Diet: Data Mixture Search for Robust Time Series Forecasting
- Title(参考訳): トレーニングダイエットの最適化:ロバスト時系列予測のためのデータ混合検索
- Authors: Federico Pennino, Maurizio Gabbrielli,
- Abstract要約: データセットを考える場合、いくつかのケースでは"なしはそれ以上"であることが示されます。
本稿では,大規模・未ラベルの時系列コーパスから最適な「トレーニングダイエット」を発見するための枠組みを提案する。
- 参考スコア(独自算出の注目度): 0.8665758002017515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The standard paradigm for training deep learning models on sensor data assumes that more data is always better. However, raw sensor streams are often imbalanced and contain significant redundancy, meaning that not all data points contribute equally to model generalization. In this paper, we show that, in some cases, "less is more" when considering datasets. We do this by reframing the data selection problem: rather than tuning model hyperparameters, we fix the model and optimize the composition of the training data itself. We introduce a framework for discovering the optimal "training diet" from a large, unlabeled time series corpus. Our framework first uses a large-scale encoder and k-means clustering to partition the dataset into distinct, behaviorally consistent clusters. These clusters represent the fundamental 'ingredients' available for training. We then employ the Optuna optimization framework to search the high-dimensional space of possible data mixtures. For each trial, Optuna proposes a specific sampling ratio for each cluster, and a new training set is constructed based on this recipe. A smaller target model is then trained and evaluated. Our experiments reveal that this data-centric search consistently discovers data mixtures that yield models with significantly higher performance compared to baselines trained on the entire dataset. Specifically - evaluated on PMSM dataset - our method improved performance from a baseline MSE of 1.70 to 1.37, a 19.41% improvement.
- Abstract(参考訳): センサーデータ上でディープラーニングモデルをトレーニングするための標準パラダイムは、より多くのデータが常により良いことを前提としている。
しかし、生のセンサストリームはしばしば不均衡であり、大きな冗長性を含んでいるため、すべてのデータポイントがモデル一般化に等しく寄与するわけではない。
本稿では,データセットを考慮した場合の「無」について述べる。
モデルハイパーパラメータをチューニングするのではなく、モデルを修正し、トレーニングデータ自体の構成を最適化する。
本稿では,大規模・未ラベルの時系列コーパスから最適な「トレーニングダイエット」を発見するための枠組みを提案する。
私たちのフレームワークは、まず大規模なエンコーダとk平均クラスタリングを使用して、データセットを別々に、行動的に一貫したクラスタに分割します。
これらのクラスタは、トレーニングに使用可能な基本的な'ingredients'を表している。
次に、オプトゥーナ最適化フレームワークを用いて、可能なデータ混合物の高次元空間を探索する。
それぞれの試験のために、Optunaはクラスタごとに特定のサンプリング比率を提案し、このレシピに基づいて新しいトレーニングセットを構築している。
より小さなターゲットモデルをトレーニングし、評価する。
我々の実験によると、このデータ中心探索は、データセット全体に基づいてトレーニングされたベースラインに比べて、はるかに高いパフォーマンスでモデルを生成するデータ混合物を一貫して発見する。
具体的には、PMSMデータセットに基づいて評価し、ベースラインMSEが1.70から1.37に改善され、19.41%が改善された。
関連論文リスト
- CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。
ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文 参考訳(メタデータ) (2025-04-17T17:58:13Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - You Only Need a Good Embeddings Extractor to Fix Spurious Correlations [26.23962870932271]
GroupDROは、サブグループラベルを使ってエンドツーエンドでモデルをトレーニングする必要がある。
トレーニングセットのサブグループ情報を用いることなく,最大90%の精度が得られることを示す。
論文 参考訳(メタデータ) (2022-12-12T21:42:33Z) - Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity
for Robust Left-Right Eye-Tracking Classifiers [0.0]
我々は、細粒度データと粗粒度データの両方からなる混合データセットを用いて機械学習モデルを訓練する。
我々の目的のために、細粒度データはより複雑な方法で収集されたデータを指すのに対し、粗粒度データはより単純な方法で収集されたデータを指す。
論文 参考訳(メタデータ) (2022-08-24T23:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。