Fugu-MT 論文翻訳(概要): Towards Synthetic Multivariate Time Series Generation for Flare Forecasting

論文の概要: Towards Synthetic Multivariate Time Series Generation for Flare Forecasting

arxiv url: http://arxiv.org/abs/2105.07532v1
Date: Sun, 16 May 2021 22:23:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-18 14:39:15.548773
Title: Towards Synthetic Multivariate Time Series Generation for Flare Forecasting
Title（参考訳）: フレア予測のための合成多変量時系列生成に向けて
Authors: Yang Chen, Dustin J. Kempton, Azim Ahmadzadeh and Rafal A. Angryk
Abstract要約: データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、関心のあるイベントの不足である。本研究では,データインフォームド・オーバーサンプリングを行う手段として,条件付き生成逆数ネットワーク(CGAN)の有用性を検討する。
参考スコア（独自算出の注目度）: 5.098461305284216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: One of the limiting factors in training data-driven, rare-event prediction algorithms is the scarcity of the events of interest resulting in an extreme imbalance in the data. There have been many methods introduced in the literature for overcoming this issue; simple data manipulation through undersampling and oversampling, utilizing cost-sensitive learning algorithms, or by generating synthetic data points following the distribution of the existing data. While synthetic data generation has recently received a great deal of attention, there are real challenges involved in doing so for high-dimensional data such as multivariate time series. In this study, we explore the usefulness of the conditional generative adversarial network (CGAN) as a means to perform data-informed oversampling in order to balance a large dataset of multivariate time series. We utilize a flare forecasting benchmark dataset, named SWAN-SF, and design two verification methods to both quantitatively and qualitatively evaluate the similarity between the generated minority and the ground-truth samples. We further assess the quality of the generated samples by training a classical, supervised machine learning algorithm on synthetic data, and testing the trained model on the unseen, real data. The results show that the classifier trained on the data augmented with the synthetic multivariate time series achieves a significant improvement compared with the case where no augmentation is used. The popular flare forecasting evaluation metrics, TSS and HSS, report 20-fold and 5-fold improvements, respectively, indicating the remarkable statistical similarities, and the usefulness of CGAN-based data generation for complicated tasks such as flare forecasting.
Abstract（参考訳）: データ駆動・レアイベント予測アルゴリズムのトレーニングにおける制限要因の1つは、興味のあるイベントの不足がデータの極端な不均衡をもたらすことである。アンダーサンプリングとオーバーサンプリングによる単純なデータ操作、コスト感受性学習アルゴリズムの利用、あるいは既存のデータの配布に続く合成データポイントの生成など、この問題を克服するための多くの方法が文献で紹介されている。近年, 合成データ生成は注目されているが, 多変量時系列などの高次元データに対しては, 真の課題がある。本研究では,多変量時系列の大規模データセットのバランスをとるために,データインフォームオーバーサンプリングを行う手段として条件付き生成逆ネットワーク(cgan)の有用性を検討する。 SWAN-SFと呼ばれるフレア予測ベンチマークデータセットを用いて,生成したマイノリティと接地トラストの類似性を定量的かつ質的に評価する2つの検証手法を設計する。さらに, 古典的教師付き機械学習アルゴリズムを合成データに訓練し, 実データを用いた学習モデルをテストすることにより, 生成したサンプルの品質を評価する。その結果, 合成多変量時系列で強化したデータに基づいて訓練した分類器は, 増大しない場合に比べ, 大幅な改善が得られた。一般的なフレア予測評価指標であるTSSとSSは,それぞれ20倍と5倍の改善を報告し,その顕著な統計的類似点と,フレア予測などの複雑なタスクに対するCGANベースのデータ生成の有用性を示した。

関連論文リスト

Improving Predictions on Highly Unbalanced Data Using Open Source Synthetic Data Upsampling [0.0]
特徴空間のスパース領域におけるギャップを埋める多様なデータポイントを生成することにより,少数群の予測精度を向上させることができることを示す。我々はMOSTLY AIによるオープンソースソリューションであるSynthetic Data SDKの有効性を評価する。
論文参考訳（メタデータ） (2025-07-22T10:11:32Z)
Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文参考訳（メタデータ） (2024-11-24T04:56:45Z)
Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-10-29T04:14:32Z)
Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文参考訳（メタデータ） (2024-06-05T21:24:26Z)
Class-Based Time Series Data Augmentation to Mitigate Extreme Class Imbalance for Solar Flare Prediction [1.4272411349249625]
時系列データは、さまざまな領域において重要な役割を担い、意思決定と予測モデリングに価値がある。機械学習(ML)とディープラーニング(DL)はこの点において有望だが、パフォーマンスはデータ品質と量に依存している。データ拡張技術は、これらの課題に対処するための潜在的な解決策を提供するが、多変量時系列データセットに対するそれらの効果は、まだ探索されていない。
論文参考訳（メタデータ） (2024-05-31T03:03:19Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
TimeVAE: A Variational Auto-Encoder for Multivariate Time Series Generation [6.824692201913679]
可変オートエンコーダ(VAE)を用いて時系列データを合成生成する新しいアーキテクチャを提案する。提案されたアーキテクチャには、解釈可能性、ドメイン知識をエンコードする能力、トレーニング時間の短縮など、いくつかの異なる特性がある。
論文参考訳（メタデータ） (2021-11-15T21:42:14Z)
Convolutional generative adversarial imputation networks for spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文参考訳（メタデータ） (2021-11-03T03:50:48Z)
Global Models for Time Series Forecasting: A Simulation Study [2.580765958706854]
自動回帰(AR)や季節ARのような単純なデータ生成プロセス(DGP)からカオスロジスティックマップ、自己興奮型閾値自動回帰、マッキーグラス方程式といった複雑なDGPまで、時系列をシミュレートする。データセットの長さと系列数は、さまざまなシナリオで変化します。我々はこれらのデータセットに対して,Recurrent Neural Networks (RNN), Feed-Forward Neural Networks, Pooled Regression (PR) Model, Light Gradient Boosting Models (LGBM)などの大域的予測モデルを用いて実験を行った。
論文参考訳（メタデータ） (2020-12-23T04:45:52Z)
Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文参考訳（メタデータ） (2020-12-04T19:21:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。