Fugu-MT 論文翻訳(概要): Deep Imputation of Missing Values in Time Series Health Data: A Review with Benchmarking

論文の概要: Deep Imputation of Missing Values in Time Series Health Data: A Review with Benchmarking

arxiv url: http://arxiv.org/abs/2302.10902v2
Date: Tue, 16 May 2023 16:56:04 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-17 18:47:19.280428
Title: Deep Imputation of Missing Values in Time Series Health Data: A Review with Benchmarking
Title（参考訳）: 時系列健康データにおける欠落価値の深い計算:ベンチマークによるレビュー
Authors: Maksims Kazijevs and Manar D. Samad
Abstract要約: この調査では,5つの時系列健康データセットに対して,最先端の深層計算手法をベンチマークするために,データ中心の6つの実験を行った。時系列データにおける欠落した値の縦方向の計算と横方向の計算を共同で行う深層学習法は、従来の計算法よりも統計的に優れたデータ品質が得られる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The imputation of missing values in multivariate time series (MTS) data is critical in ensuring data quality and producing reliable data-driven predictive models. Apart from many statistical approaches, a few recent studies have proposed state-of-the-art deep learning methods to impute missing values in MTS data. However, the evaluation of these deep methods is limited to one or two data sets, low missing rates, and completely random missing value types. This survey performs six data-centric experiments to benchmark state-of-the-art deep imputation methods on five time series health data sets. Our extensive analysis reveals that no single imputation method outperforms the others on all five data sets. The imputation performance depends on data types, individual variable statistics, missing value rates, and types. Deep learning methods that jointly perform cross-sectional (across variables) and longitudinal (across time) imputations of missing values in time series data yield statistically better data quality than traditional imputation methods. Although computationally expensive, deep learning methods are practical given the current availability of high-performance computing resources, especially when data quality and sample size are highly important in healthcare informatics. Our findings highlight the importance of data-centric selection of imputation methods to optimize data-driven predictive models.
Abstract（参考訳）: 多変量時系列(MTS)データの欠落値の計算は、データ品質の確保と信頼性の高いデータ駆動予測モデルの作成に重要である。多くの統計的アプローチとは別に、最近の研究では、mtsデータに欠けている値を引き出すための最先端のディープラーニング手法が提案されている。しかし、これらの深い手法の評価は、1つまたは2つのデータセット、低い欠落率、完全にランダムな欠落値型に限られる。この調査は、5つの時系列健康データセットに最先端のディープインプテーション手法をベンチマークするために、6つのデータ中心の実験を行う。広範な分析結果から,5つのデータセットすべてにおいて,1つのインプテーションメソッドが他よりも優れていることが分かりました。インプテーションのパフォーマンスは、データ型、個々の変数統計、値の欠落率、型に依存する。時系列データにおいて、横断的(クロス変数)と縦方向(クロス時間)のインプテーションを共同で実行するディープラーニング手法は、従来のインプテーション法よりも統計的に優れたデータ品質をもたらす。計算コストは高いが、特に医療情報学においてデータ品質とサンプルサイズが極めて重要である場合、ハイパフォーマンスな計算リソースが利用できるため、ディープラーニングの手法は実用的である。本研究は,データ駆動予測モデルを最適化する計算手法の,データ中心の選択の重要性を強調した。

関連論文リスト

Understanding Data Influence with Differential Approximation [63.817689230826595]
我々は,Diff-Inと呼ばれる連続学習ステップ間の影響の差を蓄積することにより,サンプルの影響を近似する新しい定式化を導入する。 2次近似を用いることで、これらの差分項を高精度に近似し、既存の手法で必要となるモデル凸性を排除した。 Diff-In は既存の影響推定器に比べて近似誤差が著しく低いことを示す。
論文参考訳（メタデータ） (2025-08-20T11:59:32Z)
Evaluation of Missing Data Imputation for Time Series Without Ground Truth [19.73474464678241]
本稿では, ワッセルシュタイン距離 (WD) とジェンセンシャノン偏差 (JSD) の2つの統計指標を紹介する。 WDとJSDは、特に地上の真理データが利用できないシナリオにおいて、欠落したデータ計算の品質を評価する効果的な指標である。
論文参考訳（メタデータ） (2025-02-26T01:02:16Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework [0.0]
最もよく使われる統計的および機械学習の手法は、欠落率が高くランダムではない場合に、不効率である可能性がある。本稿では,欠落した値を再構築する新しい枠組みにおいて,表データの行と列の注意を機能間およびサンプル間の注意として検討する。提案手法では,比較学習フレームワーク内でのCutMixデータ拡張を用いて,欠落値推定の不確実性を改善する。
論文参考訳（メタデータ） (2025-01-19T01:10:18Z)
Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2024-12-12T18:28:55Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
An End-to-End Model for Time Series Classification In the Presence of Missing Values [25.129396459385873]
時系列分析では,データ不足による時系列分類が問題となっている。本研究では,データ計算と表現学習を単一のフレームワーク内で統一するエンドツーエンドニューラルネットワークを提案する。
論文参考訳（メタデータ） (2024-08-11T19:39:12Z)
ITI-IQA: a Toolbox for Heterogeneous Univariate and Multivariate Missing Data Imputation Quality Assessment [0.0]
ITI-IQAは、様々な計算手法の信頼性を評価するために設計されたユーティリティのセットである。ツールボックスには、測定をチェックするための診断方法とグラフィカルツールのスイートも含まれている。
論文参考訳（メタデータ） (2024-07-16T14:26:46Z)
DiffPuter: Empowering Diffusion Models for Missing Data Imputation [56.48119008663155]
本稿ではDiffPuterについて紹介する。DiffPuterは、データ計算の欠如に対する期待最大化(EM)アルゴリズムと組み合わせた、カスタマイズされた拡散モデルである。我々の理論的解析は、DiffPuterのトレーニングステップがデータ密度の最大推定値に対応することを示している。 DiffPuterは,最も競争力のある既存手法と比較して,MAEが6.94%,RMSEが4.78%向上した。
論文参考訳（メタデータ） (2024-05-31T08:35:56Z)
How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。 Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文参考訳（メタデータ） (2024-02-15T02:27:57Z)
Efficient Online Data Mixing For Language Model Pre-Training [101.45242332613944]
既存のデータ選択方法は、遅くて計算コストのかかるプロセスに悩まされる。一方、データミキシングは、データポイントをまとめることで、データ選択の複雑さを低減する。我々は,データ選択とデータ混合の両要素を組み合わせたオンラインデータ混合(ODM)の効率的なアルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-05T00:42:35Z)
Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文参考訳（メタデータ） (2023-12-03T05:52:30Z)
Development of a Neural Network-based Method for Improved Imputation of Missing Values in Time Series Data by Repurposing DataWig [1.8719295298860394]
時系列データの欠落は頻繁に発生し、成功した分析に障害を与える。時系列データの堅牢な計算のために様々な手法が試みられているが、最も先進的な手法でさえもまだ課題に直面している。大規模なデータセットを処理する能力を持つニューラルネットワークベースの方法であるDataWigを修正して、tsDataWig(時系列データウィグ)を開発しました。元のDataWigとは異なり、tsDataWigは時間変数の値を直接処理し、複雑な時間で欠落した値をインプットする。
論文参考訳（メタデータ） (2023-08-18T15:53:40Z)
Handling missing values in healthcare data: A systematic review of deep learning-based imputation techniques [9.400097064676991]
欠落した値の適切な処理は、信頼できる見積と決定を提供する上で非常に重要です。データの多様性と複雑さの増大により、多くの研究者がディープラーニング(DL)ベースの計算技術を開発した。
論文参考訳（メタデータ） (2022-10-15T11:11:20Z)
CSDI: Conditional Score-based Diffusion Models for Probabilistic Time Series Imputation [107.63407690972139]
Conditional Score-based Diffusion Model for Imputation (CSDI) は、観測データに条件付きスコアベース拡散モデルを利用する新しい時系列計算法である。 CSDIは、一般的なパフォーマンスメトリクスの既存の確率論的計算方法よりも40-70%改善されている。さらに、Cは最先端の決定論的計算法と比較して誤差を5-20%削減する。
論文参考訳（メタデータ） (2021-07-07T22:20:24Z)
Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文参考訳（メタデータ） (2021-07-05T12:44:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。