Fugu-MT 論文翻訳(概要): Online Data Augmentation for Forecasting with Deep Learning

論文の概要: Online Data Augmentation for Forecasting with Deep Learning

arxiv url: http://arxiv.org/abs/2404.16918v2
Date: Fri, 03 Jan 2025 11:56:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-06 16:38:31.337676
Title: Online Data Augmentation for Forecasting with Deep Learning
Title（参考訳）: ディープラーニングによる予測のためのオンラインデータ拡張
Authors: Vitor Cerqueira, Moisés Santos, Luis Roque, Yassine Baghoussi, Carlos Soares,
Abstract要約: この研究は、ニューラルネットワークのトレーニング中に合成サンプルを生成するオンラインデータ拡張フレームワークを導入する。トレーニングプロセスを通じて、実データと合成データのバランスの取れた表現を維持します。オンラインデータ拡張はオフラインデータ拡張よりも予測性能が向上する、あるいは拡張アプローチがない、という実験結果が示唆されている。
参考スコア（独自算出の注目度）: 0.33554367023486936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deep learning approaches are increasingly used to tackle forecasting tasks involving datasets with multiple univariate time series. A key factor in the successful application of these methods is a large enough training sample size, which is not always available. Synthetic data generation techniques can be applied in these scenarios to augment the dataset. Data augmentation is typically applied offline before training a model. However, when training with mini-batches, some batches may contain a disproportionate number of synthetic samples that do not align well with the original data characteristics. This work introduces an online data augmentation framework that generates synthetic samples during the training of neural networks. By creating synthetic samples for each batch alongside their original counterparts, we maintain a balanced representation between real and synthetic data throughout the training process. This approach fits naturally with the iterative nature of neural network training and eliminates the need to store large augmented datasets. We validated the proposed framework using 3797 time series from 6 benchmark datasets, three neural architectures, and seven synthetic data generation techniques. The experiments suggest that online data augmentation leads to better forecasting performance compared to offline data augmentation or no augmentation approaches. The framework and experiments are publicly available.
Abstract（参考訳）: ディープラーニングアプローチは、複数の単変量時系列を持つデータセットを含む予測タスクに取り組むために、ますます使われています。これらの手法をうまく応用する上で重要な要素は、十分なトレーニングサンプルサイズであり、必ずしも利用できるとは限らない。これらのシナリオに合成データ生成技術を適用してデータセットを拡張できる。データ拡張は通常、モデルをトレーニングする前にオフラインで適用される。しかし、ミニバッチでトレーニングする場合、いくつかのバッチには、元のデータ特性とうまく一致しない不均等な数の合成サンプルが含まれている可能性がある。この研究は、ニューラルネットワークのトレーニング中に合成サンプルを生成するオンラインデータ拡張フレームワークを導入する。各バッチの合成サンプルを元のサンプルと合わせて作成することにより、トレーニングプロセス全体を通して実データと合成データのバランスの取れた表現を維持できる。このアプローチは、ニューラルネットワークトレーニングの反復的な性質に自然に適合し、大規模なデータセットを保存する必要がなくなる。 6つのベンチマークデータセット,3つのニューラルアーキテクチャ,7つの合成データ生成技術から3797の時系列を用いて,提案したフレームワークを検証した。実験の結果,オンラインデータ拡張はオフラインデータ拡張よりも予測性能が向上すること,あるいは拡張アプローチがないことが示唆された。フレームワークと実験は公開されています。

関連論文リスト

Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
On Evaluation Protocols for Data Augmentation in a Limited Data Scenario [11.09784120582206]
古典的なデータ拡張(文を修飾する)は、単により優れた微調整を行う方法であることを示す。さらに,ChatGPT や LLama2 のような対話型エージェントによるゼロショットDAでは,性能が向上することを示した。
論文参考訳（メタデータ） (2024-02-22T16:42:37Z)
D3A-TS: Denoising-Driven Data Augmentation in Time Series [0.0]
本研究は,分類と回帰問題に対する時系列におけるデータ拡張のための異なる手法の研究と分析に焦点をあてる。提案手法は拡散確率モデルを用いており、近年画像処理の分野で成功している。その結果、この手法が、分類と回帰モデルを訓練するための合成データを作成する上で、高い有用性を示している。
論文参考訳（メタデータ） (2023-12-09T11:37:07Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
Data Distillation Can Be Like Vodka: Distilling More Times For Better Quality [78.6359306550245]
蒸留に1つの合成部分集合を用いるだけでは最適な一般化性能は得られない。 PDDは複数の小さな合成画像集合を合成し、それぞれ前の集合に条件付けし、これらの部分集合の累積和でモデルを訓練する。実験の結果, PDDは既存のデータセット蒸留法の性能を最大4.3%向上させることができることがわかった。
論文参考訳（メタデータ） (2023-10-10T20:04:44Z)
Pushing the Limits of Pre-training for Time Series Forecasting in the CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文参考訳（メタデータ） (2023-10-08T08:09:51Z)
Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文参考訳（メタデータ） (2023-07-19T04:07:33Z)
A New Benchmark: On the Utility of Synthetic Data with Blender for Bare Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文参考訳（メタデータ） (2023-03-16T09:03:52Z)
Dataset Distillation by Matching Training Trajectories [75.9031209877651]
そこで本研究では,実データと同じような状態にネットワークを誘導するために,蒸留データを最適化する新しい定式化を提案する。ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。本手法は既存の手法よりも優れており,高解像度の視覚データを蒸留することができる。
論文参考訳（メタデータ） (2022-03-22T17:58:59Z)
Invariance Learning in Deep Neural Networks with Differentiable Laplace Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文参考訳（メタデータ） (2022-02-22T02:51:11Z)
Improved Fine-tuning by Leveraging Pre-training Data: Theory and Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文参考訳（メタデータ） (2021-11-24T06:18:32Z)
Improving Neural Networks for Time Series Forecasting using Data Augmentation and AutoML [0.0]
本稿では,ニューラルネットワークの性能を大幅に向上させるデータ拡張手法を提案する。これは、Neural Architecture Searchのような自動機械学習技術を組み合わせることで、与えられた時系列に最適なニューラルネットワークを見つけるのに役立つことを示している。
論文参考訳（メタデータ） (2021-03-02T19:20:49Z)
STAN: Synthetic Network Traffic Generation with Generative Neural Models [10.54843182184416]
本稿では,現実的な合成ネットワークトラフィックデータセットを生成するためのSTAN(Synthetic Network Traffic Generation with Autoregressive Neural Model)を提案する。私たちの新しいニューラルアーキテクチャは、常に属性間の時間的依存関係と依存の両方をキャプチャします。我々は、シミュレーションデータセットと実ネットワークトラフィックデータセットの両方で、STANの性能を、データの品質の観点から評価する。
論文参考訳（メタデータ） (2020-09-27T04:20:02Z)
How Does Data Augmentation Affect Privacy in Machine Learning? [94.52721115660626]
拡張データの情報を活用するために,新たなMI攻撃を提案する。モデルが拡張データで訓練された場合、最適な会員推定値を確立する。
論文参考訳（メタデータ） (2020-07-21T02:21:10Z)
Complex Wavelet SSIM based Image Data Augmentation [0.0]
我々は,MNIST手書き画像データセットを数値認識に用いる画像データセットとして検討する。このデータセットの弾性変形に最もよく用いられる拡張手法の1つを詳細に検討する。本稿では、複雑なウェーブレット構造類似度指標(CWSSIM)と呼ばれる類似度尺度を用いて、無関係なデータを選択的にフィルタリングする手法を提案する。
論文参考訳（メタデータ） (2020-07-11T21:11:46Z)
Dataset Condensation with Gradient Matching [36.14340188365505]
本研究では,大規模なデータセットを,深層ニューラルネットワークをスクラッチからトレーニングするための情報的合成サンプルの小さなセットに凝縮させることを学習する,データセット凝縮という,データ効率のよい学習のためのトレーニングセット合成手法を提案する。いくつかのコンピュータビジョンベンチマークでその性能を厳格に評価し、最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2020-06-10T16:30:52Z)
Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文参考訳（メタデータ） (2020-05-18T09:36:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。