論文の概要: RIFLE: Robust Inference from Low Order Marginals
- arxiv url: http://arxiv.org/abs/2109.00644v1
- Date: Wed, 1 Sep 2021 23:17:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-04 02:53:33.718565
- Title: RIFLE: Robust Inference from Low Order Marginals
- Title(参考訳): RIFLE: 低次行列からのロバスト推論
- Authors: Sina Baharlouei, Kelechi Ogudu, Sze-chuan Suen, Meisam Razaviyayn
- Abstract要約: 我々は,不足した値を示唆することなく,対象変数を予測する統計的推論フレームワークを開発した。
我々のフレームワークであるRIFLEは、分布的に堅牢なモデルを学ぶために、対応する信頼区間を持つ低次モーメントを推定する。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 12.82736265401703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ubiquity of missing values in real-world datasets poses a challenge for
statistical inference and can prevent similar datasets from being analyzed in
the same study, precluding many existing datasets from being used for new
analyses. While an extensive collection of packages and algorithms have been
developed for data imputation, the overwhelming majority perform poorly if
there are many missing values and low sample size, which are unfortunately
common characteristics in empirical data. Such low-accuracy estimations
adversely affect the performance of downstream statistical models. We develop a
statistical inference framework for predicting the target variable without
imputing missing values. Our framework, RIFLE (Robust InFerence via Low-order
moment Estimations), estimates low-order moments with corresponding confidence
intervals to learn a distributionally robust model. We specialize our framework
to linear regression and normal discriminant analysis, and we provide
convergence and performance guarantees. This framework can also be adapted to
impute missing data. In numerical experiments, we compare RIFLE with
state-of-the-art approaches (including MICE, Amelia, MissForest, KNN-imputer,
MIDA, and Mean Imputer). Our experiments demonstrate that RIFLE outperforms
other benchmark algorithms when the percentage of missing values is high and/or
when the number of data points is relatively small. RIFLE is publicly
available.
- Abstract(参考訳): 実世界のデータセットに欠けている値のユビキタス性は、統計推論の課題となり、同様のデータセットが同じ研究で解析されることを防ぎ、既存の多くのデータセットが新しい分析に使用されることを妨げている。
データインプテーションのためのパッケージやアルゴリズムの膨大なコレクションが開発されているが、多くの欠落した値とサンプルサイズがある場合、圧倒的多数はパフォーマンスが悪く、残念ながら経験的データに共通する特徴である。
このような低精度推定は下流統計モデルの性能に悪影響を及ぼす。
我々は,不足した値を示唆することなく,対象変数を予測する統計的推論フレームワークを開発した。
我々のフレームワーク RIFLE (Robust InFerence via Low-order moment Estimations) は、低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
我々は,線形回帰解析と正規判別分析を専門とし,収束性および性能保証を提供する。
このフレームワークは、欠落したデータに適応することもできる。
数値実験では、RIFLEと最先端のアプローチ(MICE、Amelia、MissForest、KNN-imputer、MIDA、Mean Imputerなど)を比較する。
実験の結果,RIFLEは,欠落値の割合が高く,データポイント数が比較的少ない場合には,他のベンチマークアルゴリズムよりも優れていた。
RIFLEは公開されている。
関連論文リスト
- On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - Deep Ensembles Meets Quantile Regression: Uncertainty-aware Imputation
for Time Series [49.992908221544624]
時系列データは、しばしば多くの欠落した値を示し、これは時系列計算タスクである。
従来の深層学習法は時系列計算に有効であることが示されている。
本研究では,不確実性のある高精度な計算を行う非生成時系列計算法を提案する。
論文 参考訳(メタデータ) (2023-12-03T05:52:30Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Distributionally Robust Multi-Output Regression Ranking [3.9318191265352196]
DRMRR(Distributedally Robust Multi-output Regression Ranking)と呼ばれるリストワイズ学習ランクモデルを導入する。
DRMRRは分散ロバスト最適化フレームワークを使用して、経験的データ分布の近傍で最も有害な分布の下でのマルチ出力損失関数を最小化する。
本実験は,医用文書検索と薬物反応予測の2つの実世界の応用について行った。
論文 参考訳(メタデータ) (2021-09-27T05:19:27Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Distributed Learning of Finite Gaussian Mixtures [21.652015112462]
有限ガウス混合系の分散学習における分割・対数アプローチについて検討する。
新しい推定器は整合性を示し、いくつかの一般的な条件下ではルート-nの整合性を保持する。
シミュレーションおよび実世界のデータに基づく実験により、提案手法はグローバル推定器と同等の統計的性能を有することが示された。
論文 参考訳(メタデータ) (2020-10-20T16:17:47Z) - Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula [30.84155327760468]
本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-18T19:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。