論文の概要: RIFLE: Imputation and Robust Inference from Low Order Marginals
- arxiv url: http://arxiv.org/abs/2109.00644v3
- Date: Wed, 13 Sep 2023 00:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 19:03:13.831933
- Title: RIFLE: Imputation and Robust Inference from Low Order Marginals
- Title(参考訳): RIFLE:低次行列からのインプテーションとロバスト推論
- Authors: Sina Baharlouei, Kelechi Ogudu, Sze-chuan Suen, Meisam Razaviyayn
- Abstract要約: 我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 10.082738539201804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ubiquity of missing values in real-world datasets poses a challenge for
statistical inference and can prevent similar datasets from being analyzed in
the same study, precluding many existing datasets from being used for new
analyses. While an extensive collection of packages and algorithms have been
developed for data imputation, the overwhelming majority perform poorly if
there are many missing values and low sample sizes, which are unfortunately
common characteristics in empirical data. Such low-accuracy estimations
adversely affect the performance of downstream statistical models. We develop a
statistical inference framework for regression and classification in the
presence of missing data without imputation. Our framework, RIFLE (Robust
InFerence via Low-order moment Estimations), estimates low-order moments of the
underlying data distribution with corresponding confidence intervals to learn a
distributionally robust model. We specialize our framework to linear regression
and normal discriminant analysis, and we provide convergence and performance
guarantees. This framework can also be adapted to impute missing data. In
numerical experiments, we compare RIFLE to several state-of-the-art approaches
(including MICE, Amelia, MissForest, KNN-imputer, MIDA, and Mean Imputer) for
imputation and inference in the presence of missing values. Our experiments
demonstrate that RIFLE outperforms other benchmark algorithms when the
percentage of missing values is high and/or when the number of data points is
relatively small. RIFLE is publicly available at
https://github.com/optimization-for-data-driven-science/RIFLE.
- Abstract(参考訳): 実世界のデータセットに欠けている値のユビキタス性は、統計推論の課題となり、同様のデータセットが同じ研究で解析されることを防ぎ、既存の多くのデータセットが新しい分析に使用されることを妨げている。
データインプテーションのためのパッケージやアルゴリズムの膨大なコレクションが開発されているが、多くの欠落した値とサンプルサイズがある場合、圧倒的多数はパフォーマンスが悪く、残念ながら経験的データに共通する特徴である。
このような低精度推定は下流統計モデルの性能に悪影響を及ぼす。
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワーク RIFLE (Robust InFerence via Low-order moment Estimations) は、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
我々は,線形回帰解析と正規判別分析を専門とし,収束性および性能保証を提供する。
このフレームワークは、欠落したデータに適応することもできる。
数値実験では,RIFLEと最先端の手法(MICE,Amelia,MissForest,KNN-imputer,MIDA,Mean Imputerなど)を比較し,不足値の存在下での計算と推測を行う。
実験の結果,RIFLEは,欠落値の割合が高く,データポイント数が比較的少ない場合には,他のベンチマークアルゴリズムよりも優れていた。
RIFLEはhttps://github.com/optimization-for-data-driven-science/RIFLEで公開されている。
関連論文リスト
- Performance of Cross-Validated Targeted Maximum Likelihood Estimation [0.0]
CVTMLE と TMLE を比較し,様々な環境における CVTMLE の性能について検討した。
CVTMLEは、バイアスに悪影響を及ぼすことなく、信頼区間のカバレッジを大幅に改善する。
CVTMLEは超学習者ライブラリの選択にはるかに敏感であることを示す。
論文 参考訳(メタデータ) (2024-09-17T15:15:03Z) - Evaluation of Missing Data Analytical Techniques in Longitudinal Research: Traditional and Machine Learning Approaches [11.048092826888412]
本研究ではモンテカルロシミュレーションを用いて,成長曲線モデリングフレームワークにおけるデータ不足に対する6つの解析手法の有効性を評価・比較する。
本研究では,サンプルサイズ,データ速度の欠如,データメカニズムの欠如,データ分布がモデル推定の精度と効率に与える影響について検討する。
論文 参考訳(メタデータ) (2024-06-19T20:20:30Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Distributionally Robust Multi-Output Regression Ranking [3.9318191265352196]
DRMRR(Distributedally Robust Multi-output Regression Ranking)と呼ばれるリストワイズ学習ランクモデルを導入する。
DRMRRは分散ロバスト最適化フレームワークを使用して、経験的データ分布の近傍で最も有害な分布の下でのマルチ出力損失関数を最小化する。
本実験は,医用文書検索と薬物反応予測の2つの実世界の応用について行った。
論文 参考訳(メタデータ) (2021-09-27T05:19:27Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。