論文の概要: Fast Iterative and Task-Specific Imputation with Online Learning
- arxiv url: http://arxiv.org/abs/2501.13786v1
- Date: Thu, 23 Jan 2025 16:04:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 19:17:07.330812
- Title: Fast Iterative and Task-Specific Imputation with Online Learning
- Title(参考訳): オンライン学習による高速反復・タスク特化計算
- Authors: Rahul Bordoloi, Clémence Réda, Saptarshi Bej,
- Abstract要約: 本稿では,K-アネレスト近傍の計算を反復的に改善したF3Iという計算手法を提案する。
本稿では,F3Iによるいくつかのメカニズムの欠落に対する計算精度の理論的解析を行う。
また,F3Iの合成データと実生活における薬物再資源化と手書きデジタル認識データの両方における性能を実証した。
- 参考スコア(独自算出の注目度): 2.7855886538423187
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Missing feature values are a significant hurdle for downstream machine-learning tasks such as classification and regression. However, they are pervasive in multiple real-life use cases, for instance, in drug discovery research. Moreover, imputation methods might be time-consuming and offer few guarantees on the imputation quality, especially for not-missing-at-random mechanisms. We propose an imputation approach named F3I based on the iterative improvement of a K-nearest neighbor imputation that learns the weights for each neighbor of a data point, optimizing for the most likely distribution of points over data points. This algorithm can also be jointly trained with a downstream task on the imputed values. We provide a theoretical analysis of the imputation quality by F3I for several types of missing mechanisms. We also demonstrate the performance of F3I on both synthetic data sets and real-life drug repurposing and handwritten-digit recognition data.
- Abstract(参考訳): 特徴値の欠落は、分類や回帰といった下流の機械学習タスクにとって重要なハードルである。
しかし、例えば薬物発見研究において、複数の実生活のユースケースで広く利用されている。
さらに、計算手法は時間を要する可能性があり、特に非許容ランダム機構において、計算品質の保証はほとんどない。
本稿では,データ点の近傍の重みを学習し,データ点上の最も可能性の高い点の分布を最適化するKアレスト近傍の計算を反復的に改善したF3Iという計算手法を提案する。
このアルゴリズムは、インプットされた値の下流タスクと共同でトレーニングすることもできる。
本稿では,F3Iによるいくつかのメカニズムの欠落に対する計算精度の理論的解析を行う。
また,F3Iの合成データと実生活における薬物再資源化と手書きデジタル認識データの両方における性能を実証した。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - Bayesian Estimation and Tuning-Free Rank Detection for Probability Mass Function Tensors [17.640500920466984]
本稿では,関節のPMFを推定し,そのランクを観測データから自動的に推定する新しい枠組みを提案する。
我々は、様々なモデルパラメータの後方分布を近似するために、変分推論(VI)に基づく決定論的解を導出し、さらに、変分推論(SVI)を利用して、VVIベースのアプローチのスケーラブルバージョンを開発する。
合成データと実映画レコメンデーションデータの両方を含む実験は、推定精度、自動ランク検出、計算効率の点で、VVIおよびSVIベースの手法の利点を示している。
論文 参考訳(メタデータ) (2024-10-08T20:07:49Z) - Latent Enhancing AutoEncoder for Occluded Image Classification [2.6217304977339473]
LEARN: Latent Enhancing feature Reconstruction Networkを紹介する。
オートエンコーダベースのネットワークで、頭の前に分類モデルに組み込むことができる。
OccludedPASCAL3D+データセットでは、提案されたLEARNが標準分類モデルより優れている。
論文 参考訳(メタデータ) (2024-02-10T12:22:31Z) - Leveraging Frequency Domain Learning in 3D Vessel Segmentation [50.54833091336862]
本研究では,Fourier領域学習を3次元階層分割モデルにおけるマルチスケール畳み込みカーネルの代用として活用する。
管状血管分割作業において,新しいネットワークは顕著なサイス性能(ASACA500が84.37%,ImageCASが80.32%)を示した。
論文 参考訳(メタデータ) (2024-01-11T19:07:58Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation for Time Series [45.76310830281876]
量子回帰に基づくタスクネットワークのアンサンブルを用いて不確実性を推定する新しい手法であるQuantile Sub-Ensemblesを提案する。
提案手法は,高い損失率に頑健な高精度な計算法を生成するだけでなく,非生成モデルの高速な学習により,計算効率も向上する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Mutual Information Learned Classifiers: an Information-theoretic
Viewpoint of Training Deep Learning Classification Systems [9.660129425150926]
クロスエントロピー損失は、重度のオーバーフィッティング動作を示すモデルを見つけるのに容易である。
本稿では,既存のDNN分類器のクロスエントロピー損失最小化が,基礎となるデータ分布の条件エントロピーを本質的に学習することを証明する。
ラベルと入力の相互情報を学習することで、DNN分類器を訓練する相互情報学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-03T15:09:19Z) - Principal Component Analysis based frameworks for efficient missing data
imputation algorithms [3.635056427544418]
そこで本研究では,PCAI(Principal Component Analysis Imputation)を提案する。
次に,PCAI の分類問題への応用である PCA Imputation - Classification (PIC) を紹介する。
そこで我々は,PCAI と PIC が様々な計算アルゴリズムで動作可能であることを示す。
論文 参考訳(メタデータ) (2022-05-30T14:47:27Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Multiple Imputation via Generative Adversarial Network for
High-dimensional Blockwise Missing Value Problems [6.123324869194195]
本稿では,GAN(Generative Adversarial Network)による多重インプットを提案する。
MI-GANは、高次元データセット上で既存の最先端計算手法と高い性能を示す。
特に、MI-GANは統計的推測と計算速度の点で他の計算方法よりも優れている。
論文 参考訳(メタデータ) (2021-12-21T20:19:37Z) - Transformers Can Do Bayesian Inference [56.99390658880008]
我々はPFN(Presideed Data Fitted Networks)を提案する。
PFNは、大規模機械学習技術におけるインコンテキスト学習を活用して、大規模な後部集合を近似する。
我々は、PFNがガウス過程をほぼ完璧に模倣し、難解問題に対する効率的なベイズ推定を可能にすることを示した。
論文 参考訳(メタデータ) (2021-12-20T13:07:39Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Convolutional generative adversarial imputation networks for
spatio-temporal missing data in storm surge simulations [86.5302150777089]
GAN(Generative Adversarial Imputation Nets)とGANベースの技術は、教師なし機械学習手法として注目されている。
提案手法を Con Conval Generative Adversarial Imputation Nets (Conv-GAIN) と呼ぶ。
論文 参考訳(メタデータ) (2021-11-03T03:50:48Z) - Greedy structure learning from data that contains systematic missing
values [13.088541054366527]
欠落した値を含むデータから学ぶことは、多くの領域でよくある現象である。
比較的少数のベイジアンネットワーク構造学習アルゴリズムが欠落データの原因となっている。
本稿では,2対の削除と逆確率重み付けを利用したグリージー検索構造学習の3つの変種について述べる。
論文 参考訳(メタデータ) (2021-07-09T02:56:44Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。