論文の概要: Handling Missing Data in Downstream Tasks With Distribution-Preserving Guarantees
- arxiv url: http://arxiv.org/abs/2501.13786v2
- Date: Wed, 14 May 2025 12:51:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 15:30:05.471539
- Title: Handling Missing Data in Downstream Tasks With Distribution-Preserving Guarantees
- Title(参考訳): 配電保証付き下流タスクにおける欠落データ処理
- Authors: Rahul Bordoloi, Clémence Réda, Saptarshi Bej, Olaf Wolkenhauer,
- Abstract要約: 本稿では,K-アネレスト近傍の計算を反復的に改善したF3Iという計算手法を提案する。
本稿では,F3Iによる計算品質とデータ分布の保存に関する理論的解析を行った。
本稿では,F3Iのいくつかの命令処理および分類処理における優れた性能を示す。
- 参考スコア(独自算出の注目度): 2.54990557236581
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Missing feature values are a significant hurdle for downstream machine-learning tasks such as classification. However, imputation methods for classification might be time-consuming for high-dimensional data, and offer few theoretical guarantees on the preservation of the data distribution and imputation quality, especially for not-missing-at-random mechanisms. First, we propose an imputation approach named F3I based on the iterative improvement of a K-nearest neighbor imputation, where neighbor-specific weights are learned through the optimization of a novel concave, differentiable objective function related to the preservation of the data distribution on non-missing values. F3I can then be chained to and jointly trained with any classifier architecture. Second, we provide a theoretical analysis of imputation quality and data distribution preservation by F3I for several types of missing mechanisms. Finally, we demonstrate the superior performance of F3I on several imputation and classification tasks, with applications to drug repurposing and handwritten-digit recognition data.
- Abstract(参考訳): 特徴値の欠落は、分類のような下流の機械学習タスクにとって重要なハードルである。
しかし、高次元データには計算に時間を要する可能性があり、データ分布と計算品質の保存に関する理論的保証はほとんどない。
まず,K-アネレスト近傍の計算を反復的に改善したF3Iという計算手法を提案する。この手法では,非欠落値上のデータ分布の保存に関連する,新たな凹凸,微分可能な目的関数を最適化することにより,隣り合った重みを学習する。
F3Iは、任意の分類器アーキテクチャでチェーンされ、共同で訓練される。
第2に,F3Iによる計算品質とデータ分布の保存に関する理論的解析を行った。
最後に, F3Iのいくつかの命令処理および分類処理における優れた性能を示し, 薬物再資源化および手書きデジタル認識データへの応用について述べる。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。
オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。
OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文 参考訳(メタデータ) (2024-02-10T12:22:31Z) - Leveraging Frequency Domain Learning in 3D Vessel Segmentation [50.54833091336862]
本研究では,Fourier領域学習を3次元階層分割モデルにおけるマルチスケール畳み込みカーネルの代用として活用する。
管状血管分割作業において,新しいネットワークは顕著なサイス性能(ASACA500が84.37%,ImageCASが80.32%)を示した。
論文 参考訳(メタデータ) (2024-01-11T19:07:58Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Mutual Information Learned Classifiers: an Information-theoretic
Viewpoint of Training Deep Learning Classification Systems [9.660129425150926]
クロスエントロピー損失は、重度のオーバーフィッティング動作を示すモデルを見つけるのに容易である。
本稿では,既存のDNN分類器のクロスエントロピー損失最小化が,基礎となるデータ分布の条件エントロピーを本質的に学習することを証明する。
ラベルと入力の相互情報を学習することで、DNN分類器を訓練する相互情報学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T15:09:19Z) - Principal Component Analysis based frameworks for efficient missing data
imputation algorithms [3.635056427544418]
そこで本研究では,PCAI(Principal Component Analysis Imputation)を提案する。
次に,PCAI の分類問題への応用である PCA Imputation - Classification (PIC) を紹介する。
そこで我々は,PCAI と PIC が様々な計算アルゴリズムで動作可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T14:47:27Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Greedy structure learning from data that contains systematic missing
values [13.088541054366527]
欠落した値を含むデータから学ぶことは、多くの領域でよくある現象である。
比較的少数のベイジアンネットワーク構造学習アルゴリズムが欠落データの原因となっている。
本稿では,2対の削除と逆確率重み付けを利用したグリージー検索構造学習の3つの変種について述べる。
論文 参考訳(メタデータ) (2021-07-09T02:56:44Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。