論文の概要: Computationally and Statistically Efficient Truncated Regression
- arxiv url: http://arxiv.org/abs/2010.12000v1
- Date: Thu, 22 Oct 2020 19:31:30 GMT
- Title: Computationally and Statistically Efficient Truncated Regression
- Title(参考訳): 計算的および統計的に効率的なトランケート回帰
- Authors: Constantinos Daskalakis, Themis Gouleakis, Christos Tzamos, Manolis
- Abstract要約: 計算的かつ統計的に効率的な線形回帰の古典的問題に対する推定器を提供する。
提案手法では, トランキャット標本の負の対数類似度に代わることなく, プロジェクテッド・Descent Gradient (PSGD) を用いて推定する。
- 参考スコア(独自算出の注目度): 36.3677715543994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a computationally and statistically efficient estimator for the
classical problem of truncated linear regression, where the dependent variable
$y = w^T x + \epsilon$ and its corresponding vector of covariates $x \in R^k$
are only revealed if the dependent variable falls in some subset $S \subseteq
R$; otherwise the existence of the pair $(x, y)$ is hidden. This problem has
remained a challenge since the early works of [Tobin 1958, Amemiya 1973,
Hausman and Wise 1977], its applications are abundant, and its history dates
back even further to the work of Galton, Pearson, Lee, and Fisher. While
consistent estimators of the regression coefficients have been identified, the
error rates are not well-understood, especially in high dimensions.
Under a thickness assumption about the covariance matrix of the covariates in
the revealed sample, we provide a computationally efficient estimator for the
coefficient vector $w$ from $n$ revealed samples that attains $l_2$ error
$\tilde{O}(\sqrt{k/n})$. Our estimator uses Projected Stochastic Gradient
Descent (PSGD) without replacement on the negative log-likelihood of the
truncated sample. For the statistically efficient estimation we only need
oracle access to the set $S$.In order to achieve computational efficiency we
need to assume that $S$ is a union of a finite number of intervals but still
can be complicated. PSGD without replacement must be restricted to an
appropriately defined convex cone to guarantee that the negative log-likelihood
is strongly convex, which in turn is established using concentration of
matrices on variables with sub-exponential tails. We perform experiments on
simulated data to illustrate the accuracy of our estimator.
As a corollary, we show that SGD learns the parameters of single-layer neural
networks with noisy activation functions.
- Abstract(参考訳): そこでは、従属変数 $y = w^T x + \epsilon$ とその対応ベクトル $x \in R^k$ が、従属変数がある部分集合 $S \subseteq R$ に該当する場合のみ、従属変数 $(x, y)$ の存在が隠される。
この問題は(Tobin 1958, Amemiya 1973, Hausman and Wise 1977)の初期の研究から問題であり、その応用は豊富であり、その歴史はGalton, Pearson, Lee, Fisherの業績にまでさかのぼる。
明らかにされたサンプル中の共変量の共分散行列に関する厚みの仮定の下で、係数ベクトル $w$ を$n$ から計算効率良く推定し、$l_2$ 誤差 $\tilde{o}(\sqrt{k/n})$ を得る。
提案手法では, ストランキャット標本の負の対数類似性に代えてPSGD(Projected Stochastic Gradient Descent)を用いた。
計算効率を達成するためには、$s$ を有限個の区間の和と仮定する必要があるが、それでも複雑である。
