論文の概要: Provably Auditing Ordinary Least Squares in Low Dimensions
- arxiv url: http://arxiv.org/abs/2205.14284v1
- Date: Sat, 28 May 2022 00:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 15:26:38.718868
- Title: Provably Auditing Ordinary Least Squares in Low Dimensions
- Title(参考訳): 低次元における通常最小方形の検討
- Authors: Ankur Moitra and Dhruv Rohatgi
- Abstract要約: ほとんどの測定基準は、通常最小二乗の線形回帰から導かれる結論の安定性を測定する。
最近の研究は、単純で大域的、有限サンプル安定度(英語版)を提案しており、分析の再実行が結論を覆すために取り除かなければならないサンプルの最小数である。
コ変数の数が一定であるがサンプルの数が多い低次元状態において、この計量を確実に推定する効率的なアルゴリズムが存在することを示す。
- 参考スコア(独自算出の注目度): 17.655785504931913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Measuring the stability of conclusions derived from Ordinary Least Squares
linear regression is critically important, but most metrics either only measure
local stability (i.e. against infinitesimal changes in the data), or are only
interpretable under statistical assumptions. Recent work proposes a simple,
global, finite-sample stability metric: the minimum number of samples that need
to be removed so that rerunning the analysis overturns the conclusion,
specifically meaning that the sign of a particular coefficient of the estimated
regressor changes. However, besides the trivial exponential-time algorithm, the
only approach for computing this metric is a greedy heuristic that lacks
provable guarantees under reasonable, verifiable assumptions; the heuristic
provides a loose upper bound on the stability and also cannot certify lower
bounds on it.
We show that in the low-dimensional regime where the number of covariates is
a constant but the number of samples is large, there are efficient algorithms
for provably estimating (a fractional version of) this metric. Applying our
algorithms to the Boston Housing dataset, we exhibit regression analyses where
we can estimate the stability up to a factor of $3$ better than the greedy
heuristic, and analyses where we can certify stability to dropping even a
majority of the samples.
- Abstract(参考訳): 通常の最小二乗線形回帰から導かれる結論の安定性を測定することは極めて重要であるが、ほとんどの指標は局所的安定性(すなわちデータの無限小変化に対して)を測定するか、統計的仮定の下でのみ解釈できる。
最近の研究は、単純で大域的、有限個の安定性メートル法を提案している: 分析を再実行するために必要となるサンプルの最小数、具体的には推定レグレッサーの特定の係数の符号が変化することを意味する結論を覆す。
しかし、自明な指数時間アルゴリズムの他に、この計量を計算するための唯一のアプローチは、合理的で検証可能な仮定の下で証明可能な保証が欠如している厳密なヒューリスティックである。
共変量の数が一定だがサンプル数が大きい低次元のレジームでは、この計量を確実に推定(分数バージョン)するための効率的なアルゴリズムが存在することを示す。
アルゴリズムをボストン・ハウジング・データセットに適用し、回帰分析を行い、グリーディ・ヒューリスティックよりも3ドル高い確率で安定性を推定し、サンプルの大半を落として安定性を証明できる分析を行った。
関連論文リスト
- Exact Mean Square Linear Stability Analysis for SGD [28.65663421598186]
勾配降下(SGD)の線形安定性に必要かつ十分なステップサイズを明示的条件として提示する。
SGDの安定性閾値は、全バッチ勾配ステップw.p.$-p$と1サンプル勾配ステップw.p.$p$の混合プロセスと等価であることを示す。
論文 参考訳(メタデータ) (2023-06-13T15:29:23Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Heavy-tailed Streaming Statistical Estimation [58.70341336199497]
ストリーミング$p$のサンプルから重み付き統計推定の課題を考察する。
そこで我々は,傾きの雑音に対して,よりニュアンスな条件下での傾きの傾きの低下を設計し,より詳細な解析を行う。
論文 参考訳(メタデータ) (2021-08-25T21:30:27Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Toward Better Generalization Bounds with Locally Elastic Stability [41.7030651617752]
局所的な弾性安定性は、一様安定性に基づいて導出されたものよりも厳密な一般化境界を意味すると論じる。
我々は、有界支持ベクトルマシン、正規化最小二乗回帰、勾配降下の例を再考する。
論文 参考訳(メタデータ) (2020-10-27T02:04:53Z) - Rao-Blackwellizing the Straight-Through Gumbel-Softmax Gradient
Estimator [93.05919133288161]
一般的なGumbel-Softmax推定器のストレートスルー変量の分散は、ラオ・ブラックウェル化により減少できることを示す。
これは平均二乗誤差を確実に減少させる。
これは分散の低減、収束の高速化、および2つの教師なし潜在変数モデルの性能向上につながることを実証的に実証した。
論文 参考訳(メタデータ) (2020-10-09T22:54:38Z) - Outlier Robust Mean Estimation with Subgaussian Rates via Stability [46.03021473600576]
本研究では,ロバストなアウトリール高次元平均推定問題について検討する。
外乱平均推定のために, ガウス平均を用いた第1次計算効率を得る。
論文 参考訳(メタデータ) (2020-07-30T17:33:03Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Finite-time Identification of Stable Linear Systems: Optimality of the
Least-Squares Estimator [79.3239137440876]
線形時間不変系に対する正規最小方形推定器(OLS)の推定誤差の新しい有限時間解析法を提案する。
我々は、OLS推定器が$(varepsilon,delta)$-PACとなるのに十分な観測サンプルの数を特徴付け、少なくとも1-delta$の確率で$varepsilon$未満の推定誤差を生じる。
論文 参考訳(メタデータ) (2020-03-17T20:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。