論文の概要: Evaluation of Missing Data Imputation for Time Series Without Ground Truth
- arxiv url: http://arxiv.org/abs/2503.05775v1
- Date: Wed, 26 Feb 2025 01:02:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-16 08:47:07.347644
- Title: Evaluation of Missing Data Imputation for Time Series Without Ground Truth
- Title(参考訳): 地中真実を含まない時系列データの欠落量評価
- Authors: Rania Farjallah, Bassant Selim, Brigitte Jaumard, Samr Ali, Georges Kaddoum,
- Abstract要約: 本稿では, ワッセルシュタイン距離 (WD) とジェンセンシャノン偏差 (JSD) の2つの統計指標を紹介する。
WDとJSDは、特に地上の真理データが利用できないシナリオにおいて、欠落したデータ計算の品質を評価する効果的な指標である。
- 参考スコア(独自算出の注目度): 19.73474464678241
- License:
- Abstract: The challenge of handling missing data in time series is critical for maintaining the accuracy and reliability of machine learning (ML) models in applications like fifth generation mobile communication (5G) network management. Traditional methods for validating imputation rely on ground truth data, which is inherently unavailable. This paper addresses this limitation by introducing two statistical metrics, the wasserstein distance (WD) and jensen-shannon divergence (JSD), to evaluate imputation quality without requiring ground truth. These metrics assess the alignment between the distributions of imputed and original data, providing a robust method for evaluating imputation performance based on internal structure and data consistency. We apply and test these metrics across several imputation techniques. Results demonstrate that WD and JSD are effective metrics for assessing the quality of missing data imputation, particularly in scenarios where ground truth data is unavailable.
- Abstract(参考訳): 第5世代モバイル通信(5G)ネットワーク管理のようなアプリケーションにおける機械学習(ML)モデルの正確性と信頼性を維持する上で、時系列で欠落したデータを扱うという課題が重要である。
従来の計算の検証方法は、本質的に不可能な地上の真理データに依存している。
本稿では, 地中真理を必要とせず, 計算精度を評価するために, ワッセルシュタイン距離 (WD) とジェンセンシャノン偏差 (JSD) の2つの統計指標を導入することで, この制限に対処する。
これらのメトリクスは、インプットされたデータと元のデータの分布の整合性を評価し、内部構造とデータの整合性に基づいてインプテーション性能を評価する堅牢な方法を提供する。
これらのメトリクスをいくつかの計算手法に適用し、テストする。
WDとJSDは、特に真理データが利用できないシナリオにおいて、欠落したデータ計算の品質を評価するのに有効な指標であることを示す。
関連論文リスト
- CoSTI: Consistency Models for (a faster) Spatio-Temporal Imputation [0.0]
CoSTIは、推論時間を劇的に削減しつつ、DDPMに匹敵する計算品質を達成するために一貫性トレーニングを採用している。
複数のデータセットとデータシナリオをまたいだCoSTIを評価し、拡散モデルと同等のパフォーマンスで、計算時間を最大98%削減することを示した。
論文 参考訳(メタデータ) (2025-01-31T18:14:28Z) - ITI-IQA: a Toolbox for Heterogeneous Univariate and Multivariate Missing Data Imputation Quality Assessment [0.0]
ITI-IQAは、様々な計算手法の信頼性を評価するために設計されたユーティリティのセットである。
ツールボックスには、測定をチェックするための診断方法とグラフィカルツールのスイートも含まれている。
論文 参考訳(メタデータ) (2024-07-16T14:26:46Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - A robust deep learning-based damage identification approach for SHM
considering missing data [12.46223206282221]
欠落したデータは構造的健康モニタリング法の伝導に大きな影響を及ぼす。
本稿では,欠落したデータ事例を考慮に入れたロバストな損傷識別手法を提案する。
その結果、欠落したデータ計算と損傷識別を併用できることが判明した。
論文 参考訳(メタデータ) (2023-03-31T18:00:56Z) - Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking [0.0]
この調査では,5つの時系列健康データセットに対して,最先端の深層計算手法をベンチマークするために,データ中心の6つの実験を行った。
時系列データにおける欠落した値の縦方向の計算と横方向の計算を共同で行う深層学習法は、従来の計算法よりも統計的に優れたデータ品質が得られる。
論文 参考訳(メタデータ) (2023-02-10T16:03:36Z) - Conditional expectation with regularization for missing data imputation [19.254291863337347]
欠落したデータは、医学、スポーツ、ファイナンスなど、さまざまな領域のデータセットで頻繁に発生する。
正規化による損失値の条件分布に基づくインプット(DIMV)という新しいアルゴリズムを提案する。
DIMVは、完全に観察された特徴からの情報をベースとして、エントリが不足している特徴の条件分布を決定することで機能する。
論文 参考訳(メタデータ) (2023-02-02T06:59:15Z) - Investigating Data Variance in Evaluations of Automatic Machine
Translation Metrics [58.50754318846996]
本稿では,メトリクスのパフォーマンスがデータに敏感であることを示す。
メトリクスのランキングは、異なるデータセットで評価が行われると異なる。
論文 参考訳(メタデータ) (2022-03-29T18:58:28Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。