論文の概要: DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework
- arxiv url: http://arxiv.org/abs/2501.10910v2
- Date: Wed, 05 Feb 2025 18:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:25:35.639994
- Title: DeepIFSAC: Deep Imputation of Missing Values Using Feature and Sample Attention within Contrastive Framework
- Title(参考訳): DeepIFSAC: コントラストフレームワークにおける特徴とサンプルの注意による欠落値の深い計算
- Authors: Ibna Kowsar, Shourav B. Rabbani, Yina Hou, Manar D. Samad,
- Abstract要約: 既存の欠落値計算法は、欠落率が高く、ランダムではない場合に有効ではない。
我々は、行と列の注意を機能間およびサンプル間の注意として用い、欠落した値を再構築する新しい枠組みを開発する。
実世界の電子健康記録を欠落した値で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Missing values of varying patterns and rates in real-world tabular data pose a significant challenge in developing reliable data-driven models. Existing missing value imputation methods use statistical and traditional machine learning and are ineffective when the missing rate is high and not at random. This paper explores row and column attention in tabular data as between-feature and between-sample attention in a novel framework to reconstruct missing values. The proposed method uses the CutMix data augmentation within a contrastive learning framework to improve the uncertainty of missing value estimation. The performance and generalizability of trained imputation models are evaluated on set-aside test data folds with missing values. The proposed framework outperforms nine state-of-the-art imputation methods across several missing value types and rates (10\%-50\%) on a diverse selection of twelve tabular data sets. We evaluate the quality of imputed data using real-world electronic health records with missing values, demonstrating our proposed framework's superiority to state-of-the-art statistical, machine learning, and deep imputation methods. This paper highlights the heterogeneity of tabular data sets to recommend imputation methods based on missing value types and data characteristics.
- Abstract(参考訳): 実世界の表データにおける様々なパターンやレートの欠落は、信頼できるデータ駆動モデルを開発する上で大きな課題となる。
既存の欠落値計算法は統計的および従来の機械学習を用いており、欠落率が高く、ランダムではない場合には非効率である。
本稿では,欠落した値を再構築する新しい枠組みにおいて,表データの行と列の注意を機能間およびサンプル間の注意として検討する。
提案手法は,比較学習フレームワーク内でのCutMixデータ拡張を用いて,欠落値推定の不確実性を改善する。
トレーニングされた計算モデルの性能と一般化性は、欠落した値を持つセットアサイドテストデータフォールドで評価される。
提案したフレームワークは,12個の表データセットの多種多様な選択に対して,いくつかの欠落した値タイプとレート(10\%-50\%)に対して,最先端の9つの計算手法より優れている。
実世界の電子健康記録を欠落した値で評価し,最先端の統計,機械学習,深層計算手法に比較して,提案手法の優位性を実証した。
本稿では,欠落した値の型とデータ特性に基づく計算手法を推奨するために,表形式のデータセットの不均一性を強調する。
関連論文リスト
- Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - ITI-IQA: a Toolbox for Heterogeneous Univariate and Multivariate Missing Data Imputation Quality Assessment [0.0]
ITI-IQAは、様々な計算手法の信頼性を評価するために設計されたユーティリティのセットである。
ツールボックスには、測定をチェックするための診断方法とグラフィカルツールのスイートも含まれている。
論文 参考訳(メタデータ) (2024-07-16T14:26:46Z) - Probabilistic Imputation for Time-series Classification with Missing
Data [17.956329906475084]
時系列データを欠落した値で分類する新しいフレームワークを提案する。
我々の深層生成モデル部分は、欠落した値を複数の可算的な方法で解釈するように訓練されている。
分類部は、インプットされた不足値とともに時系列データを取り込み、信号を分類する。
論文 参考訳(メタデータ) (2023-08-13T10:04:13Z) - Adaptive Negative Evidential Deep Learning for Open-set Semi-supervised Learning [69.81438976273866]
オープンセット半教師付き学習(Open-set SSL)は、ラベル付きデータ(inliers)で観測されない新しいカテゴリ(outliers)を含むラベル付きデータとテストデータを含む、より実践的なシナリオである。
本研究では,様々な不確かさを定量化するための外乱検出器として顕在的深層学習(EDL)を導入し,自己学習と推論のための異なる不確実性指標を設計する。
Inlierとoutlierの両方を含むラベルなしデータセットに適合するように、新しい適応的負の最適化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-21T09:07:15Z) - Deep Imputation of Missing Values in Time Series Health Data: A Review
with Benchmarking [0.0]
この調査では,5つの時系列健康データセットに対して,最先端の深層計算手法をベンチマークするために,データ中心の6つの実験を行った。
時系列データにおける欠落した値の縦方向の計算と横方向の計算を共同で行う深層学習法は、従来の計算法よりも統計的に優れたデータ品質が得られる。
論文 参考訳(メタデータ) (2023-02-10T16:03:36Z) - Diffusion models for missing value imputation in tabular data [10.599563005836066]
機械学習における値計算の欠落は、利用可能な情報を用いてデータセットの欠落値を正確に推定するタスクである。
本稿では,タブラルデータに対する連続スコアベース拡散モデル (CSDI_T) と呼ばれる拡散モデル手法を提案する。
分類変数と数値変数を同時に処理するために, ワンホット符号化, アナログビット符号化, 特徴トークン化という3つの手法を検討した。
論文 参考訳(メタデータ) (2022-10-31T08:13:26Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Learning from Similarity-Confidence Data [94.94650350944377]
類似度信頼性(Sconf)データから学習する新しい弱監督学習問題について検討する。
本研究では,Sconfデータのみから計算可能な分類リスクの非バイアス推定器を提案し,推定誤差境界が最適収束率を達成することを示す。
論文 参考訳(メタデータ) (2021-02-13T07:31:16Z) - Establishing strong imputation performance of a denoising autoencoder in
a wide range of missing data problems [0.0]
トレーニングと計算の両方に一貫したフレームワークを開発します。
結果と最先端の計算手法を比較検討した。
開発されたオートエンコーダは、初期データ破損のあらゆる範囲において最小の誤差を得た。
論文 参考訳(メタデータ) (2020-04-06T12:00:30Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。