論文の概要: Are Synthetic Time-series Data Really not as Good as Real Data?
- arxiv url: http://arxiv.org/abs/2402.00607v1
- Date: Thu, 1 Feb 2024 13:59:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 15:12:20.173339
- Title: Are Synthetic Time-series Data Really not as Good as Real Data?
- Title(参考訳): 合成時系列データは実際のデータほど良くないのか?
- Authors: Fanzhe Fu, Junru Chen, Jing Zhang, Carl Yang, Lvbin Ma, Yang Yang
- Abstract要約: 時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。
InfoBoostは、時系列表現学習機能を備えた、高度に汎用的なクロスドメインデータ合成フレームワークである。
本研究では,実データを用いて学習したモデルの性能を上回りながら,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。
- 参考スコア(独自算出の注目度): 29.852306720544224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time-series data presents limitations stemming from data quality issues, bias
and vulnerabilities, and generalization problem. Integrating universal data
synthesis methods holds promise in improving generalization. However, current
methods cannot guarantee that the generator's output covers all unseen real
data. In this paper, we introduce InfoBoost -- a highly versatile cross-domain
data synthesizing framework with time series representation learning
capability. We have developed a method based on synthetic data that enables
model training without the need for real data, surpassing the performance of
models trained with real data. Additionally, we have trained a universal
feature extractor based on our synthetic data that is applicable to all
time-series data. Our approach overcomes interference from multiple sources
rhythmic signal, noise interference, and long-period features that exceed
sampling window capabilities. Through experiments, our non-deep-learning
synthetic data enables models to achieve superior reconstruction performance
and universal explicit representation extraction without the need for real
data.
- Abstract(参考訳): 時系列データは、データ品質の問題、バイアスと脆弱性、一般化の問題に起因する制限を提示する。
普遍的データ合成手法の統合は、一般化の改善に期待を抱かせる。
しかし、現在のメソッドは、ジェネレータの出力が見えない実データすべてをカバーすることを保証できません。
本稿では,時系列表現学習機能を備えた多機能なクロスドメインデータ合成フレームワークInfoBoostを紹介する。
本研究では,実データで学習したモデルの性能を上回って,実データを必要としないモデルトレーニングを可能にする合成データに基づく手法を開発した。
さらに,全時系列データに適用可能な合成データに基づいて,普遍的特徴抽出器を訓練した。
本手法は,複数の音源からの干渉,ノイズ干渉,サンプリングウィンドウ機能を超える長周期特徴を克服する。
実験により,非深層学習合成データを用いて,実データを必要としない再現性能と普遍的表現抽出を実現することができる。
関連論文リスト
- Tackling Data Heterogeneity in Federated Time Series Forecasting [61.021413959988216]
時系列予測は、エネルギー消費予測、病気の伝染モニタリング、天気予報など、様々な実世界の応用において重要な役割を果たす。
既存のほとんどのメソッドは、分散デバイスから中央クラウドサーバに大量のデータを収集する、集中的なトレーニングパラダイムに依存しています。
本稿では,情報合成データを補助的知識キャリアとして生成することにより,データの均一性に対処する新しいフレームワークであるFed-TRENDを提案する。
論文 参考訳(メタデータ) (2024-11-24T04:56:45Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Generating Realistic Tabular Data with Large Language Models [49.03536886067729]
大規模言語モデル(LLM)は多様なタスクに使われてきたが、特徴と対象変数の正確な相関は捉えていない。
そこで本研究では,LLMに基づく3つの重要な改良を加えて,実データの特徴クラス相関を正しく把握する手法を提案する。
実験の結果,本手法は下流タスクにおいて,20個のデータセット上で10個のSOTAベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-10-29T04:14:32Z) - Improving Object Detector Training on Synthetic Data by Starting With a Strong Baseline Methodology [0.14980193397844666]
本稿では,合成データを用いた学習における事前学習対象検出器の性能向上手法を提案する。
提案手法は,実画像の事前学習から得られた有用な特徴を忘れずに,合成データから有能な情報を抽出することに焦点を当てる。
論文 参考訳(メタデータ) (2024-05-30T08:31:01Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。