論文の概要: Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking
- arxiv url: http://arxiv.org/abs/2302.10902v1
- Date: Fri, 10 Feb 2023 16:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-26 13:40:57.006364
- Title: Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking
- Title(参考訳): 時系列健康データにおける欠落価値の深い計算:ベンチマークによるレビュー
- Authors: Maksims Kazijevs and Manar D. Samad
- Abstract要約: 本研究は,5つの時系列健康データセットと6つの実験条件にまたがって,最先端の深層計算手法をベンチマークするために,データ中心のアプローチをとる。
計算性能は、データ型、個々の変数統計、値レートの欠如、型に依存する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The imputation of missing values in multivariate time series data has been
explored using a few recently proposed deep learning methods. The evaluation of
these state-of-the-art methods is limited to one or two data sets, low missing
rates, and completely random missing value types. These limited experiments do
not comprehensively evaluate imputation methods on realistic data scenarios
with varying missing rates and not-at-random missing types. This survey takes a
data-centric approach to benchmark state-of-the-art deep imputation methods
across five time series health data sets and six experimental conditions. Our
extensive analysis reveals that no single imputation method outperforms the
others on all five data sets. The imputation performance depends on data types,
individual variable statistics, missing value rates, and types. In this
context, state-of-the-art methods jointly perform cross-sectional (across
variables) and longitudinal (across time) imputations of missing values in time
series data. However, variables with high cross-correlation can be better
imputed by cross-sectional imputation methods alone. In contrast, the ones with
time series sensor signals may be better imputed by longitudinal imputation
methods alone. The findings of this study emphasize the importance of
considering data specifics when choosing a missing value imputation method for
multivariate time series data.
- Abstract(参考訳): 多変量時系列データにおける欠落値の計算は、最近提案された深層学習法を用いて検討されている。
これらの最先端手法の評価は、1つまたは2つのデータセット、低い欠落率、完全にランダムな欠落値型に限られる。
これらの限定的な実験は、欠落率や無限欠落型が異なる現実的なデータシナリオにおけるインプテーション法を包括的に評価しない。
この調査は、データ中心のアプローチで、5つの時系列健康データセットと6つの実験条件にわたって、最先端のディープインプテーション手法をベンチマークする。
広範な分析結果から,5つのデータセットすべてにおいて,1つのインプテーションメソッドが他よりも優れていることが分かりました。
インプテーションのパフォーマンスは、データ型、個々の変数統計、値の欠落率、型に依存する。
この文脈では、最先端の手法は時系列データの欠落値の横断的(横断的変数)と縦的(横断時間)のインプテーションを共同で行う。
しかし、高い相互相関を持つ変数は、横断的インプテーション法のみによってよりよく暗示される。
対照的に、時系列センサ信号を持つものは、縦方向のインプテーション法のみによってよりよくインプットされる。
本研究は,多変量時系列データの欠落値計算法を選択する際に,データ特異性を考慮することの重要性を強調した。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - An End-to-End Model for Time Series Classification In the Presence of Missing Values [25.129396459385873]
時系列分析では,データ不足による時系列分類が問題となっている。
本研究では,データ計算と表現学習を単一のフレームワーク内で統一するエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-11T19:39:12Z) - ITI-IQA: a Toolbox for Heterogeneous Univariate and Multivariate Missing Data Imputation Quality Assessment [0.0]
ITI-IQAは、様々な計算手法の信頼性を評価するために設計されたユーティリティのセットである。
ツールボックスには、測定をチェックするための診断方法とグラフィカルツールのスイートも含まれている。
論文 参考訳(メタデータ) (2024-07-16T14:26:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Development of a Neural Network-based Method for Improved Imputation of
Missing Values in Time Series Data by Repurposing DataWig [1.8719295298860394]
時系列データの欠落は頻繁に発生し、成功した分析に障害を与える。
時系列データの堅牢な計算のために様々な手法が試みられているが、最も先進的な手法でさえもまだ課題に直面している。
大規模なデータセットを処理する能力を持つニューラルネットワークベースの方法であるDataWigを修正して、tsDataWig(時系列データウィグ)を開発しました。
元のDataWigとは異なり、tsDataWigは時間変数の値を直接処理し、複雑な時間で欠落した値をインプットする。
論文 参考訳(メタデータ) (2023-08-18T15:53:40Z) - Handling missing values in healthcare data: A systematic review of deep
learning-based imputation techniques [9.400097064676991]
欠落した値の適切な処理は、信頼できる見積と決定を提供する上で非常に重要です。
データの多様性と複雑さの増大により、多くの研究者がディープラーニング(DL)ベースの計算技術を開発した。
論文 参考訳(メタデータ) (2022-10-15T11:11:20Z) - CSDI: Conditional Score-based Diffusion Models for Probabilistic Time
Series Imputation [107.63407690972139]
Conditional Score-based Diffusion Model for Imputation (CSDI) は、観測データに条件付きスコアベース拡散モデルを利用する新しい時系列計算法である。
CSDIは、一般的なパフォーマンスメトリクスの既存の確率論的計算方法よりも40-70%改善されている。
さらに、Cは最先端の決定論的計算法と比較して誤差を5-20%削減する。
論文 参考訳(メタデータ) (2021-07-07T22:20:24Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。