論文の概要: Development of a Neural Network-based Method for Improved Imputation of
Missing Values in Time Series Data by Repurposing DataWig
- arxiv url: http://arxiv.org/abs/2308.09635v1
- Date: Fri, 18 Aug 2023 15:53:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 12:38:36.718329
- Title: Development of a Neural Network-based Method for Improved Imputation of
Missing Values in Time Series Data by Repurposing DataWig
- Title(参考訳): データウィグの再利用による時系列データの欠落値のインプテーション改善のためのニューラルネットワーク法の開発
- Authors: Daniel Zhang
- Abstract要約: 時系列データの欠落は頻繁に発生し、成功した分析に障害を与える。
時系列データの堅牢な計算のために様々な手法が試みられているが、最も先進的な手法でさえもまだ課題に直面している。
大規模なデータセットを処理する能力を持つニューラルネットワークベースの方法であるDataWigを修正して、tsDataWig(時系列データウィグ)を開発しました。
元のDataWigとは異なり、tsDataWigは時間変数の値を直接処理し、複雑な時間で欠落した値をインプットする。
- 参考スコア(独自算出の注目度): 1.8719295298860394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Time series data are observations collected over time intervals. Successful
analysis of time series data captures patterns such as trends, cyclicity and
irregularity, which are crucial for decision making in research, business, and
governance. However, missing values in time series data occur often and present
obstacles to successful analysis, thus they need to be filled with alternative
values, a process called imputation. Although various approaches have been
attempted for robust imputation of time series data, even the most advanced
methods still face challenges including limited scalability, poor capacity to
handle heterogeneous data types and inflexibility due to requiring strong
assumptions of data missing mechanisms. Moreover, the imputation accuracy of
these methods still has room for improvement. In this study, I developed
tsDataWig (time-series DataWig) by modifying DataWig, a neural network-based
method that possesses the capacity to process large datasets and heterogeneous
data types but was designed for non-time series data imputation. Unlike the
original DataWig, tsDataWig can directly handle values of time variables and
impute missing values in complex time series datasets. Using one simulated and
three different complex real-world time series datasets, I demonstrated that
tsDataWig outperforms the original DataWig and the current state-of-the-art
methods for time series data imputation and potentially has broad application
due to not requiring strong assumptions of data missing mechanisms. This study
provides a valuable solution for robustly imputing missing values in
challenging time series datasets, which often contain millions of samples, high
dimensional variables, and heterogeneous data types.
- Abstract(参考訳): 時系列データは時間間隔で観測される。
時系列データの解析は、傾向、循環性、不規則性などのパターンを捉え、研究、ビジネス、ガバナンスにおける意思決定に不可欠である。
しかしながら、時系列データの欠落した値は頻繁に発生し、解析の成功の障害となるため、インプテーションと呼ばれるプロセスに置き換えられる必要がある。
時系列データのロバストなインプテーションのための様々なアプローチが試みられているが、最も先進的な手法でさえ、スケーラビリティの制限、異種データ型を扱う能力の不足、データの欠落メカニズムの強い仮定を必要とするため柔軟性の低下など、依然として課題に直面している。
さらに、これらの手法のインプテーション精度は改善の余地がある。
本研究では,大規模なデータセットや異種データ型を処理する能力を持つニューラルネットワークベースの手法であるDataWigを改良し,時系列データウィグ(時系列データウィグ)を開発した。
オリジナルのDataWigとは異なり、tsDataWigは時間変数の値を直接処理し、複雑な時系列データセットで欠落した値をインプットする。
1つのシミュレーションと3つの異なる実世界の時系列データセットを用いて、tsDataWigが元のDataWigと現在の時系列データ計算の最先端メソッドより優れており、データ不足機構の強い仮定を必要とせず幅広い応用が可能であることを実証した。
この研究は、数百万のサンプル、高次元変数、および不均一なデータ型を含む、挑戦的な時系列データセットにおいて、欠落値を頑健に表現するための貴重なソリューションを提供する。
関連論文リスト
- Graph Spatiotemporal Process for Multivariate Time Series Anomaly
Detection with Missing Values [67.76168547245237]
本稿では,グラフ時間過程と異常スコアラを用いて異常を検出するGST-Proという新しいフレームワークを提案する。
実験結果から,GST-Pro法は時系列データ中の異常を効果的に検出し,最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-11T10:10:16Z) - Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking [0.0]
この調査では,5つの時系列健康データセットに対して,最先端の深層計算手法をベンチマークするために,データ中心の6つの実験を行った。
時系列データにおける欠落した値の縦方向の計算と横方向の計算を共同で行う深層学習法は、従来の計算法よりも統計的に優れたデータ品質が得られる。
論文 参考訳(メタデータ) (2023-02-10T16:03:36Z) - Time-Varying Propensity Score to Bridge the Gap between the Past and Present [104.46387765330142]
本稿では,データ分布の段階的変化を検出するための時間変化確率スコアを提案する。
実装のさまざまな方法を示し、さまざまな問題について評価する。
論文 参考訳(メタデータ) (2022-10-04T07:21:49Z) - Grouped self-attention mechanism for a memory-efficient Transformer [64.0125322353281]
天気予報、電力消費、株式市場などの現実世界のタスクには、時間とともに変化するデータの予測が含まれる。
時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。
我々はGSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)の2つの新しいモジュールを提案する。
提案モデルでは,既存の手法に匹敵する計算量と性能の低減が効果的に示された。
論文 参考訳(メタデータ) (2022-10-02T06:58:49Z) - STING: Self-attention based Time-series Imputation Networks using GAN [4.052758394413726]
GANを用いたSING(Self-attention based Time-Series Imputation Networks)を提案する。
我々は、時系列の潜在表現を学習するために、生成的対向ネットワークと双方向リカレントニューラルネットワークを利用する。
3つの実世界のデータセットによる実験結果から、STINGは既存の最先端手法よりも計算精度が優れていることが示された。
論文 参考訳(メタデータ) (2022-09-22T06:06:56Z) - PIETS: Parallelised Irregularity Encoders for Forecasting with
Heterogeneous Time-Series [5.911865723926626]
マルチソースデータセットの不均一性と不規則性は時系列解析において重要な課題となる。
本研究では、異種時系列をモデル化するための新しいアーキテクチャ、PIETSを設計する。
PIETSは異種時間データを効果的にモデル化し、予測タスクにおける他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-09-30T20:01:19Z) - Deep Time Series Models for Scarce Data [8.673181404172963]
時系列データは多くの領域で爆発的な速度で成長し、時系列モデリング研究の急増を刺激している。
データ希少性は、膨大なデータ分析の問題で発生する普遍的な問題です。
論文 参考訳(メタデータ) (2021-03-16T22:16:54Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - Time Series Data Imputation: A Survey on Deep Learning Approaches [4.4458738910060775]
時系列データ計算は、様々なカテゴリのメソッドでよく研究されている問題である。
ディープラーニングに基づく時系列手法は、RNNのようなモデルの使用によって進歩している。
我々は,それらのモデルアーキテクチャ,その長所,短所,短所,および時系列計算手法の開発を示す効果をレビューし,議論する。
論文 参考訳(メタデータ) (2020-11-23T11:57:27Z) - Transformer Hawkes Process [79.16290557505211]
本稿では,長期的依存関係を捕捉する自己認識機構を利用したTransformer Hawkes Process (THP) モデルを提案する。
THPは、有意なマージンによる可能性と事象予測の精度の両方の観点から、既存のモデルより優れている。
本稿では、THPが関係情報を組み込む際に、複数の点過程を学習する際の予測性能の改善を実現する具体例を示す。
論文 参考訳(メタデータ) (2020-02-21T13:48:13Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。