論文の概要: Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking
- arxiv url: http://arxiv.org/abs/2302.10902v2
- Date: Tue, 16 May 2023 16:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 18:47:19.280428
- Title: Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking
- Title(参考訳): 時系列健康データにおける欠落価値の深い計算:ベンチマークによるレビュー
- Authors: Maksims Kazijevs and Manar D. Samad
- Abstract要約: この調査では,5つの時系列健康データセットに対して,最先端の深層計算手法をベンチマークするために,データ中心の6つの実験を行った。
時系列データにおける欠落した値の縦方向の計算と横方向の計算を共同で行う深層学習法は、従来の計算法よりも統計的に優れたデータ品質が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The imputation of missing values in multivariate time series (MTS) data is
critical in ensuring data quality and producing reliable data-driven predictive
models. Apart from many statistical approaches, a few recent studies have
proposed state-of-the-art deep learning methods to impute missing values in MTS
data. However, the evaluation of these deep methods is limited to one or two
data sets, low missing rates, and completely random missing value types. This
survey performs six data-centric experiments to benchmark state-of-the-art deep
imputation methods on five time series health data sets. Our extensive analysis
reveals that no single imputation method outperforms the others on all five
data sets. The imputation performance depends on data types, individual
variable statistics, missing value rates, and types. Deep learning methods that
jointly perform cross-sectional (across variables) and longitudinal (across
time) imputations of missing values in time series data yield statistically
better data quality than traditional imputation methods. Although
computationally expensive, deep learning methods are practical given the
current availability of high-performance computing resources, especially when
data quality and sample size are highly important in healthcare informatics.
Our findings highlight the importance of data-centric selection of imputation
methods to optimize data-driven predictive models.
- Abstract(参考訳): 多変量時系列(MTS)データの欠落値の計算は、データ品質の確保と信頼性の高いデータ駆動予測モデルの作成に重要である。
多くの統計的アプローチとは別に、最近の研究では、mtsデータに欠けている値を引き出すための最先端のディープラーニング手法が提案されている。
しかし、これらの深い手法の評価は、1つまたは2つのデータセット、低い欠落率、完全にランダムな欠落値型に限られる。
この調査は、5つの時系列健康データセットに最先端のディープインプテーション手法をベンチマークするために、6つのデータ中心の実験を行う。
広範な分析結果から,5つのデータセットすべてにおいて,1つのインプテーションメソッドが他よりも優れていることが分かりました。
インプテーションのパフォーマンスは、データ型、個々の変数統計、値の欠落率、型に依存する。
時系列データにおいて、横断的(クロス変数)と縦方向(クロス時間)のインプテーションを共同で実行するディープラーニング手法は、従来のインプテーション法よりも統計的に優れたデータ品質をもたらす。
計算コストは高いが、特に医療情報学においてデータ品質とサンプルサイズが極めて重要である場合、ハイパフォーマンスな計算リソースが利用できるため、ディープラーニングの手法は実用的である。
本研究は,データ駆動予測モデルを最適化する計算手法の,データ中心の選択の重要性を強調した。
関連論文リスト
- How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。
一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。
我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-05T00:42:35Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Development of a Neural Network-based Method for Improved Imputation of
Missing Values in Time Series Data by Repurposing DataWig [1.8719295298860394]
時系列データの欠落は頻繁に発生し、成功した分析に障害を与える。
時系列データの堅牢な計算のために様々な手法が試みられているが、最も先進的な手法でさえもまだ課題に直面している。
大規模なデータセットを処理する能力を持つニューラルネットワークベースの方法であるDataWigを修正して、tsDataWig(時系列データウィグ)を開発しました。
元のDataWigとは異なり、tsDataWigは時間変数の値を直接処理し、複雑な時間で欠落した値をインプットする。
論文 参考訳(メタデータ) (2023-08-18T15:53:40Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - Time-dependent Iterative Imputation for Multivariate Longitudinal
Clinical Data [0.0]
Time-Dependent Iterative Imputationは時系列データを計算するための実用的なソリューションを提供する。
500,000人以上の患者を観察するコホートに応用した場合,本手法は最先端の計算法より優れていた。
論文 参考訳(メタデータ) (2023-04-16T16:10:49Z) - Handling missing values in healthcare data: A systematic review of deep
learning-based imputation techniques [9.400097064676991]
欠落した値の適切な処理は、信頼できる見積と決定を提供する上で非常に重要です。
データの多様性と複雑さの増大により、多くの研究者がディープラーニング(DL)ベースの計算技術を開発した。
論文 参考訳(メタデータ) (2022-10-15T11:11:20Z) - Multistage Large Segment Imputation Framework Based on Deep Learning and
Statistic Metrics [8.266097781813656]
本研究では, 深層学習に基づく多段階計算フレームワークを提案する。
本モデルでは,データ分布の低次および高次統計量の混合測定指標と,データ計算性能指標の新たな視点を示す。
実験結果から, 多段階計算法と混合指標が優れていること, 不足値計算の効果がある程度改善されていることが明らかとなった。
論文 参考訳(メタデータ) (2022-09-22T14:17:24Z) - CSDI: Conditional Score-based Diffusion Models for Probabilistic Time
Series Imputation [107.63407690972139]
Conditional Score-based Diffusion Model for Imputation (CSDI) は、観測データに条件付きスコアベース拡散モデルを利用する新しい時系列計算法である。
CSDIは、一般的なパフォーマンスメトリクスの既存の確率論的計算方法よりも40-70%改善されている。
さらに、Cは最先端の決定論的計算法と比較して誤差を5-20%削減する。
論文 参考訳(メタデータ) (2021-07-07T22:20:24Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。