論文の概要: SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression
- arxiv url: http://arxiv.org/abs/2103.12725v1
- Date: Tue, 23 Mar 2021 17:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 14:00:58.557836
- Title: SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression
- Title(参考訳): SLOE:高次元ロジスティック回帰における統計的推論の高速化
- Authors: Steve Yadlowsky, Taedong Yun, Cory McLean, Alexander D'Amour
- Abstract要約: 実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
- 参考スコア(独自算出の注目度): 68.66245730450915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logistic regression remains one of the most widely used tools in applied
statistics, machine learning and data science. Practical datasets often have a
substantial number of features $d$ relative to the sample size $n$. In these
cases, the logistic regression maximum likelihood estimator (MLE) is biased,
and its standard large-sample approximation is poor. In this paper, we develop
an improved method for debiasing predictions and estimating frequentist
uncertainty for such datasets. We build on recent work characterizing the
asymptotic statistical behavior of the MLE in the regime where the aspect ratio
$d / n$, instead of the number of features $d$, remains fixed as $n$ grows. In
principle, this approximation facilitates bias and uncertainty corrections, but
in practice, these corrections require an estimate of the signal strength of
the predictors. Our main contribution is SLOE, an estimator of the signal
strength with convergence guarantees that reduces the computation time of
estimation and inference by orders of magnitude. The bias correction that this
facilitates also reduces the variance of the predictions, yielding narrower
confidence intervals with higher (valid) coverage of the true underlying
probabilities and parameters. We provide an open source package for this
method, available at https://github.com/google-research/sloe-logistic.
- Abstract(参考訳): ロジスティック回帰は、応用統計、機械学習、データサイエンスにおいて最も広く使われているツールの1つである。
実際のデータセットには、サンプルサイズに対して$d$というかなりの数の機能があることが多い。
これらの場合、ロジスティック回帰最大確率推定器(mle)は偏りがあり、標準の大型サンプル近似は貧弱である。
本稿では,予測の偏りを低減し,そのようなデータセットに対する頻繁な不確実性を推定する手法を開発した。
我々は,MLEの漸近的統計的挙動を特徴付ける最近の研究の上に構築されている。例えば,$d/n$のアスペクト比が,$d$の個数ではなく,$n$が大きくなるにつれて固定される。
原理的には、この近似はバイアスと不確実性補正を促進するが、実際にはこれらの補正は予測器の信号強度を推定する必要がある。
我々の主な貢献はSLOEであり、信号強度をコンバージェンス保証で推定し、等級による推定と推定の計算時間を短縮する。
バイアス補正は予測のばらつきを減少させ、真の基礎となる確率とパラメータのより高い(有意な)カバレッジでより狭い信頼区間をもたらす。
本手法のオープンソースパッケージはhttps://github.com/google-research/sloe-logistic.comで公開しています。
関連論文リスト
- Relaxed Quantile Regression: Prediction Intervals for Asymmetric Noise [51.87307904567702]
量子レグレッション(Quantile regression)は、出力の分布における量子の実験的推定を通じてそのような間隔を得るための主要なアプローチである。
本稿では、この任意の制約を除去する量子回帰に基づく区間構成の直接的な代替として、Relaxed Quantile Regression (RQR)を提案する。
これにより、柔軟性が向上し、望ましい品質が向上することが実証された。
論文 参考訳(メタデータ) (2024-06-05T13:36:38Z) - Analysis of Bootstrap and Subsampling in High-dimensional Regularized Regression [29.57766164934947]
統計モデルの不確実性を推定するための一般的な再サンプリング手法について検討する。
一般化線形モデル(英語版)の文脈において、これらの手法によって推定されるバイアスと分散の厳密な記述を提供する。
論文 参考訳(メタデータ) (2024-02-21T08:50:33Z) - Leveraging Locality and Robustness to Achieve Massively Scalable
Gaussian Process Regression [1.3518297878940662]
GPN(Nest-Nighbour)予測の強靭性特性と制限挙動を探索することによって,新しい視点を導入する。
データサイズnが大きくなるにつれて、推定パラメータとGPモデル仮定の精度は、GPnn予測精度とますます無関係になる。
この不正確さの源泉を補正することができ、高い計算コストで精度の高い不確実性対策と正確な予測を両立できることを示す。
論文 参考訳(メタデータ) (2023-06-26T14:32:46Z) - Robust computation of optimal transport by $\beta$-potential
regularization [79.24513412588745]
最適輸送(OT)は、確率分布間の差を測定する機械学習分野で広く使われているツールである。
我々は、いわゆる$beta$-divergenceに付随するベータポテンシャル項でOTを正規化することを提案する。
提案アルゴリズムで計算した輸送行列は,外乱が存在する場合でも確率分布を頑健に推定するのに役立つことを実験的に実証した。
論文 参考訳(メタデータ) (2022-12-26T18:37:28Z) - Streaming Sparse Linear Regression [1.8707139489039097]
本稿では,データポイントが逐次到着したときのストリーミングデータを解析する新しいオンライン疎線形回帰フレームワークを提案する。
提案手法はメモリ効率が高く,厳密な制約付き凸性仮定を必要とする。
論文 参考訳(メタデータ) (2022-11-11T07:31:55Z) - Efficient Truncated Linear Regression with Unknown Noise Variance [26.870279729431328]
雑音のばらつきが不明な場合に, 線形回帰の計算的, 統計的に効率的な推定器を提案する。
提案手法は, トランキャット標本の負の類似度に対して, プロジェクテッド・グラディエント・ディフレッシュを効果的に実装することに基づく。
論文 参考訳(メタデータ) (2022-08-25T12:17:37Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Fundamental Limits of Ridge-Regularized Empirical Risk Minimization in
High Dimensions [41.7567932118769]
経験的リスク最小化アルゴリズムは、様々な推定や予測タスクで広く利用されている。
本稿では,コンベックスEMMの統計的精度に関する基礎的限界を推論のために初めて特徴づける。
論文 参考訳(メタデータ) (2020-06-16T04:27:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。