論文の概要: Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula
- arxiv url: http://arxiv.org/abs/2006.10829v2
- Date: Mon, 18 Jan 2021 23:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:06:27.452916
- Title: Matrix Completion with Quantified Uncertainty through Low Rank Gaussian
Copula
- Title(参考訳): 低位ガウスコプラによる量的不確かさの行列補完
- Authors: Yuxuan Zhao, Madeleine Udell
- Abstract要約: 本稿では,不確かさを定量化した値計算の欠如に対する枠組みを提案する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,本手法は様々な種類のデータに対して最先端の計算精度が得られることがわかった。
- 参考スコア(独自算出の注目度): 30.84155327760468
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern large scale datasets are often plagued with missing entries. For
tabular data with missing values, a flurry of imputation algorithms solve for a
complete matrix which minimizes some penalized reconstruction error. However,
almost none of them can estimate the uncertainty of its imputations. This paper
proposes a probabilistic and scalable framework for missing value imputation
with quantified uncertainty. Our model, the Low Rank Gaussian Copula, augments
a standard probabilistic model, Probabilistic Principal Component Analysis,
with marginal transformations for each column that allow the model to better
match the distribution of the data. It naturally handles Boolean, ordinal, and
real-valued observations and quantifies the uncertainty in each imputation. The
time required to fit the model scales linearly with the number of rows and the
number of columns in the dataset. Empirical results show the method yields
state-of-the-art imputation accuracy across a wide range of data types,
including those with high rank. Our uncertainty measure predicts imputation
error well: entries with lower uncertainty do have lower imputation error (on
average). Moreover, for real-valued data, the resulting confidence intervals
are well-calibrated.
- Abstract(参考訳): 現代の大規模データセットは、しばしば欠落したエントリで悩まされる。
値が不足している表データに対しては、ペナルティ化された再構成エラーを最小化する完全行列に対して、複数のインプテーションアルゴリズムが解く。
しかし、ほとんど誰もその計算の不確かさを見積もることができない。
本稿では,定量化の不確実性を伴う価値インプテーションを欠く確率的かつスケーラブルなフレームワークを提案する。
我々のモデルである低ランクガウスコピュラは、標準確率モデルである確率的主成分分析を強化し、各列に対して限界変換を行い、モデルがデータの分布によく一致するようにします。
ブール、順序、実数値の観測を自然に処理し、各計算における不確実性を定量化する。
モデルに適合するために必要な時間は、データセット内の行数や列数と線形にスケールする。
実験結果から,高階データを含む多種多様なデータ型に対して,最先端の計算精度が得られた。
我々の不確実性尺度は、計算誤差をよく予測する: 低い不確実性を持つエントリは(平均において)計算誤差を低くする。
さらに、実数値データでは、結果の信頼区間が適切に調整される。
関連論文リスト
- Robust Online Covariance and Sparse Precision Estimation Under Arbitrary
Data Corruption [1.5850859526672516]
本稿では,オンラインシナリオにおける共分散を頑健に推定する改良型トリミング・インナー・プロデューサアルゴリズムを提案する。
推定値の誤差バウンドおよび収束特性を,アルゴリズムの真精度行列に与える。
論文 参考訳(メタデータ) (2023-09-16T05:37:28Z) - Theoretical characterization of uncertainty in high-dimensional linear
classification [24.073221004661427]
本研究では,高次元入力データとラベルの限られたサンプル数から学習する不確実性が,近似メッセージパッシングアルゴリズムによって得られることを示す。
我々は,信頼度を適切に正則化することで緩和する方法について論じるとともに,損失に対するクロスバリデーションが0/1誤差よりもキャリブレーションが優れていることを示す。
論文 参考訳(メタデータ) (2022-02-07T15:32:07Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - RIFLE: Imputation and Robust Inference from Low Order Marginals [10.082738539201804]
我々は,不備なデータの存在下での回帰と分類のための統計的推論フレームワークを開発する。
我々のフレームワークであるRIFLEは、基礎となるデータ分布の低次モーメントを対応する信頼区間で推定し、分布的に堅牢なモデルを学ぶ。
実験の結果,RIFLEは,欠落値の割合が高い場合や,データポイント数が比較的小さい場合には,他のベンチマークアルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-09-01T23:17:30Z) - Near-optimal inference in adaptive linear regression [60.08422051718195]
最小二乗法のような単純な方法でさえ、データが適応的に収集されるときの非正規な振る舞いを示すことができる。
我々は,これらの分布異常を少なくとも2乗推定で補正するオンラインデバイアス推定器のファミリーを提案する。
我々は,マルチアームバンディット,自己回帰時系列推定,探索による能動的学習などの応用を通して,我々の理論の有用性を実証する。
論文 参考訳(メタデータ) (2021-07-05T21:05:11Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Scalable Marginal Likelihood Estimation for Model Selection in Deep
Learning [78.83598532168256]
階層型モデル選択は、推定困難のため、ディープラーニングではほとんど使われない。
本研究は,検証データが利用できない場合,限界的可能性によって一般化が向上し,有用であることを示す。
論文 参考訳(メタデータ) (2021-04-11T09:50:24Z) - Unlabelled Data Improves Bayesian Uncertainty Calibration under
Covariate Shift [100.52588638477862]
後続正則化に基づく近似ベイズ推定法を開発した。
前立腺癌の予後モデルを世界規模で導入する上で,本手法の有用性を実証する。
論文 参考訳(メタデータ) (2020-06-26T13:50:19Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。