論文の概要: On-the-fly Data Augmentation for Forecasting with Deep Learning
- arxiv url: http://arxiv.org/abs/2404.16918v1
- Date: Thu, 25 Apr 2024 17:16:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 14:54:11.618332
- Title: On-the-fly Data Augmentation for Forecasting with Deep Learning
- Title(参考訳): ディープラーニングを用いた予測のためのオンザフライデータ拡張
- Authors: Vitor Cerqueira, Moisés Santos, Yassine Baghoussi, Carlos Soares,
- Abstract要約: 我々はこの問題に対処するためにOnDAT(On-the-fly Data Augmentation for Time series)を提案する。
各イテレーションで新しい拡張データセットを生成することで、モデルは絶えず変化する拡張データバリエーションに晒される。
提案手法を,最先端のディープラーニング予測手法と,合計75797時系列を含む8つのベンチマークデータセットを用いて検証した。
- 参考スコア(独自算出の注目度): 0.35998666903987897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning approaches are increasingly used to tackle forecasting tasks. A key factor in the successful application of these methods is a large enough training sample size, which is not always available. In these scenarios, synthetic data generation techniques are usually applied to augment the dataset. Data augmentation is typically applied before fitting a model. However, these approaches create a single augmented dataset, potentially limiting their effectiveness. This work introduces OnDAT (On-the-fly Data Augmentation for Time series) to address this issue by applying data augmentation during training and validation. Contrary to traditional methods that create a single, static augmented dataset beforehand, OnDAT performs augmentation on-the-fly. By generating a new augmented dataset on each iteration, the model is exposed to a constantly changing augmented data variations. We hypothesize this process enables a better exploration of the data space, which reduces the potential for overfitting and improves forecasting performance. We validated the proposed approach using a state-of-the-art deep learning forecasting method and 8 benchmark datasets containing a total of 75797 time series. The experiments suggest that OnDAT leads to better forecasting performance than a strategy that applies data augmentation before training as well as a strategy that does not involve data augmentation. The method and experiments are publicly available.
- Abstract(参考訳): 予測タスクに対処するために、ディープラーニングアプローチがますます使われています。
これらの手法をうまく応用する上で重要な要素は、十分なトレーニングサンプルサイズであり、必ずしも利用できるとは限らない。
これらのシナリオでは、データセットを増強するために通常、合成データ生成技術が適用される。
データ拡張は通常、モデルに適合する前に適用される。
しかしながら、これらのアプローチは単一のデータセットを生成し、その有効性を制限する可能性がある。
この作業では、トレーニングと検証中にデータ拡張を適用することで、この問題に対処するOnDAT(On-the-fly Data Augmentation for Time series)を導入している。
単一の静的なデータセットを事前に生成する従来のメソッドとは対照的に、OnDATはオンザフライで拡張を実行する。
各イテレーションで新しい拡張データセットを生成することで、モデルは絶えず変化する拡張データバリエーションに晒される。
このプロセスにより、データ空間のより優れた探索が可能になり、過剰適合の可能性を低減し、予測性能を向上させることができると仮定する。
提案手法を,最先端のディープラーニング予測手法と,合計75797時系列を含む8つのベンチマークデータセットを用いて検証した。
実験の結果,OnDATはトレーニング前にデータ拡張を適用する戦略よりも,データ拡張を伴わない戦略よりも優れた予測性能をもたらすことが示唆された。
この方法と実験は一般に公開されている。
関連論文リスト
- Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Data Distillation Can Be Like Vodka: Distilling More Times For Better
Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。
PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。
実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-10-10T20:04:44Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。
ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。
本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文 参考訳(メタデータ) (2022-03-22T17:58:59Z) - Towards Synthetic Multivariate Time Series Generation for Flare
Forecasting [5.098461305284216]
データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。
本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
論文 参考訳(メタデータ) (2021-05-16T22:23:23Z) - Improving Neural Networks for Time Series Forecasting using Data
Augmentation and AutoML [0.0]
本稿では,ニューラルネットワークの性能を大幅に向上させるデータ拡張手法を提案する。
これは、Neural Architecture Searchのような自動機械学習技術を組み合わせることで、与えられた時系列に最適なニューラルネットワークを見つけるのに役立つことを示している。
論文 参考訳(メタデータ) (2021-03-02T19:20:49Z) - STAN: Synthetic Network Traffic Generation with Generative Neural Models [10.54843182184416]
本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。
私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。
我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
論文 参考訳(メタデータ) (2020-09-27T04:20:02Z) - Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。
いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-10T16:30:52Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。