論文の概要: DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework
- arxiv url: http://arxiv.org/abs/2501.10910v3
- Date: Tue, 25 Mar 2025 17:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:10.442976
- Title: DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework
- Title(参考訳): DeepIFSAC: コントラストフレームワークにおける特徴とサンプルの注意による欠落値の深い計算
- Authors: Ibna Kowsar, Shourav B. Rabbani, Yina Hou, Manar D. Samad,
- Abstract要約: 最もよく使われる統計的および機械学習の手法は、欠落率が高くランダムではない場合に、不効率である可能性がある。
本稿では,欠落した値を再構築する新しい枠組みにおいて,表データの行と列の注意を機能間およびサンプル間の注意として検討する。
提案手法では,比較学習フレームワーク内でのCutMixデータ拡張を用いて,欠落値推定の不確実性を改善する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Missing values of varying patterns and rates in real-world tabular data pose a significant challenge in developing reliable data-driven models. The most commonly used statistical and machine learning methods for missing value imputation may be ineffective when the missing rate is high and not random. This paper explores row and column attention in tabular data as between-feature and between-sample attention in a novel framework to reconstruct missing values. The proposed method uses CutMix data augmentation within a contrastive learning framework to improve the uncertainty of missing value estimation. The performance and generalizability of trained imputation models are evaluated in set-aside test data folds with missing values. The proposed framework is compared with 11 state-of-the-art statistical, machine learning, and deep imputation methods using 12 diverse tabular data sets. The average performance rank of our proposed method demonstrates its superiority over the state-of-the-art methods for missing rates between 10% and 90% and three missing value types, especially when the missing values are not random. The quality of the imputed data using our proposed method is compared in a downstream patient classification task using real-world electronic health records. This paper highlights the heterogeneity of tabular data sets to recommend imputation methods based on missing value types and data characteristics.
- Abstract(参考訳): 実世界の表データにおける様々なパターンやレートの欠落は、信頼できるデータ駆動モデルを開発する上で大きな課題となる。
最もよく使われる統計的および機械学習の手法は、欠落率が高くランダムではない場合に有効でない可能性がある。
本稿では,欠落した値を再構築する新しい枠組みにおいて,表データの行と列の注意を機能間およびサンプル間の注意として検討する。
提案手法では,比較学習フレームワーク内でのCutMixデータ拡張を用いて,欠落値推定の不確実性を改善する。
トレーニングされた計算モデルの性能と一般化性は、欠落した値を持つセットアサイドテストデータフォールドで評価される。
提案するフレームワークは,12種類の表付きデータセットを用いた11の最先端統計,機械学習,深層計算手法と比較する。
提案手法の平均性能は10%から90%の欠落率と3つの欠落値(特に欠落値がランダムでない場合)に対して,最先端手法よりも優れていることを示す。
実際の電子カルテを用いた下流患者の分類作業において,提案手法を用いたインプットデータの品質を比較した。
本稿では,欠落した値の型とデータ特性に基づく計算手法を推奨するために,表形式のデータセットの不均一性を強調する。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - ITI-IQA: a Toolbox for Heterogeneous Univariate and Multivariate Missing Data Imputation Quality Assessment [0.0]
ITI-IQAは、様々な計算手法の信頼性を評価するために設計されたユーティリティのセットである。
ツールボックスには、測定をチェックするための診断方法とグラフィカルツールのスイートも含まれている。
論文 参考訳(メタデータ) (2024-07-16T14:26:46Z) - Probabilistic Imputation for Time-series Classification with Missing
Data [17.956329906475084]
時系列データを欠落した値で分類する新しいフレームワークを提案する。
我々の深層生成モデル部分は、欠落した値を複数の可算的な方法で解釈するように訓練されている。
分類部は、インプットされた不足値とともに時系列データを取り込み、信号を分類する。
論文 参考訳(メタデータ) (2023-08-13T10:04:13Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking [0.0]
この調査では,5つの時系列健康データセットに対して,最先端の深層計算手法をベンチマークするために,データ中心の6つの実験を行った。
時系列データにおける欠落した値の縦方向の計算と横方向の計算を共同で行う深層学習法は、従来の計算法よりも統計的に優れたデータ品質が得られる。
論文 参考訳(メタデータ) (2023-02-10T16:03:36Z) - Diffusion models for missing value imputation in tabular data [10.599563005836066]
機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。
本稿では,タブラルデータに対する連続スコアベース拡散モデル (CSDI_T) と呼ばれる拡散モデル手法を提案する。
分類変数と数値変数を同時に処理するために, ワンホット符号化, アナログビット符号化, 特徴トークン化という3つの手法を検討した。
論文 参考訳(メタデータ) (2022-10-31T08:13:26Z) - Benchmarking missing-values approaches for predictive models on health
databases [47.187609203210705]
我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
論文 参考訳(メタデータ) (2022-02-17T09:40:04Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。