論文の概要: Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking
- arxiv url: http://arxiv.org/abs/2302.10902v2
- Date: Tue, 16 May 2023 16:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 18:47:19.280428
- Title: Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking
- Title(参考訳): 時系列健康データにおける欠落価値の深い計算:ベンチマークによるレビュー
- Authors: Maksims Kazijevs and Manar D. Samad
- Abstract要約: この調査では,5つの時系列健康データセットに対して,最先端の深層計算手法をベンチマークするために,データ中心の6つの実験を行った。
時系列データにおける欠落した値の縦方向の計算と横方向の計算を共同で行う深層学習法は、従来の計算法よりも統計的に優れたデータ品質が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The imputation of missing values in multivariate time series (MTS) data is
critical in ensuring data quality and producing reliable data-driven predictive
models. Apart from many statistical approaches, a few recent studies have
proposed state-of-the-art deep learning methods to impute missing values in MTS
data. However, the evaluation of these deep methods is limited to one or two
data sets, low missing rates, and completely random missing value types. This
survey performs six data-centric experiments to benchmark state-of-the-art deep
imputation methods on five time series health data sets. Our extensive analysis
reveals that no single imputation method outperforms the others on all five
data sets. The imputation performance depends on data types, individual
variable statistics, missing value rates, and types. Deep learning methods that
jointly perform cross-sectional (across variables) and longitudinal (across
time) imputations of missing values in time series data yield statistically
better data quality than traditional imputation methods. Although
computationally expensive, deep learning methods are practical given the
current availability of high-performance computing resources, especially when
data quality and sample size are highly important in healthcare informatics.
Our findings highlight the importance of data-centric selection of imputation
methods to optimize data-driven predictive models.
- Abstract(参考訳): 多変量時系列(MTS)データの欠落値の計算は、データ品質の確保と信頼性の高いデータ駆動予測モデルの作成に重要である。
多くの統計的アプローチとは別に、最近の研究では、mtsデータに欠けている値を引き出すための最先端のディープラーニング手法が提案されている。
しかし、これらの深い手法の評価は、1つまたは2つのデータセット、低い欠落率、完全にランダムな欠落値型に限られる。
この調査は、5つの時系列健康データセットに最先端のディープインプテーション手法をベンチマークするために、6つのデータ中心の実験を行う。
広範な分析結果から,5つのデータセットすべてにおいて,1つのインプテーションメソッドが他よりも優れていることが分かりました。
インプテーションのパフォーマンスは、データ型、個々の変数統計、値の欠落率、型に依存する。
時系列データにおいて、横断的(クロス変数)と縦方向(クロス時間)のインプテーションを共同で実行するディープラーニング手法は、従来のインプテーション法よりも統計的に優れたデータ品質をもたらす。
計算コストは高いが、特に医療情報学においてデータ品質とサンプルサイズが極めて重要である場合、ハイパフォーマンスな計算リソースが利用できるため、ディープラーニングの手法は実用的である。
本研究は,データ駆動予測モデルを最適化する計算手法の,データ中心の選択の重要性を強調した。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - An End-to-End Model for Time Series Classification In the Presence of Missing Values [25.129396459385873]
時系列分析では,データ不足による時系列分類が問題となっている。
本研究では,データ計算と表現学習を単一のフレームワーク内で統一するエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-11T19:39:12Z) - ITI-IQA: a Toolbox for Heterogeneous Univariate and Multivariate Missing Data Imputation Quality Assessment [0.0]
ITI-IQAは、様々な計算手法の信頼性を評価するために設計されたユーティリティのセットである。
ツールボックスには、測定をチェックするための診断方法とグラフィカルツールのスイートも含まれている。
論文 参考訳(メタデータ) (2024-07-16T14:26:46Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Development of a Neural Network-based Method for Improved Imputation of
Missing Values in Time Series Data by Repurposing DataWig [1.8719295298860394]
時系列データの欠落は頻繁に発生し、成功した分析に障害を与える。
時系列データの堅牢な計算のために様々な手法が試みられているが、最も先進的な手法でさえもまだ課題に直面している。
大規模なデータセットを処理する能力を持つニューラルネットワークベースの方法であるDataWigを修正して、tsDataWig(時系列データウィグ)を開発しました。
元のDataWigとは異なり、tsDataWigは時間変数の値を直接処理し、複雑な時間で欠落した値をインプットする。
論文 参考訳(メタデータ) (2023-08-18T15:53:40Z) - Handling missing values in healthcare data: A systematic review of deep
learning-based imputation techniques [9.400097064676991]
欠落した値の適切な処理は、信頼できる見積と決定を提供する上で非常に重要です。
データの多様性と複雑さの増大により、多くの研究者がディープラーニング(DL)ベースの計算技術を開発した。
論文 参考訳(メタデータ) (2022-10-15T11:11:20Z) - CSDI: Conditional Score-based Diffusion Models for Probabilistic Time
Series Imputation [107.63407690972139]
Conditional Score-based Diffusion Model for Imputation (CSDI) は、観測データに条件付きスコアベース拡散モデルを利用する新しい時系列計算法である。
CSDIは、一般的なパフォーマンスメトリクスの既存の確率論的計算方法よりも40-70%改善されている。
さらに、Cは最先端の決定論的計算法と比較して誤差を5-20%削減する。
論文 参考訳(メタデータ) (2021-07-07T22:20:24Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。