論文の概要: Tree-Projected Gradient Descent for Estimating Gradient-Sparse
Parameters on Graphs
- Date: Sun, 31 May 2020 20:08:13 GMT
- Title: Tree-Projected Gradient Descent for Estimating Gradient-Sparse
Parameters on Graphs
- Title(参考訳): グラフ上のグラディエント・スパースパラメータ推定のためのツリー投影グラディエントDescent
- Authors: Sheng Xu, Zhou Fan, Sahand Negahban
- Abstract要約: mathbbRp$における勾配スパースパラメータの$boldsymboltheta*の推定について検討した。
損失に対する厳密な凸性および滑らかさの仮定が適切に制限されている場合、この推定器は、$G$とは独立な乗法定数までの2乗誤差リスク $fracs*n log (1+fracps*)$を達成する。
- Abstract: We study estimation of a gradient-sparse parameter vector
$\boldsymbol{\theta}^* \in \mathbb{R}^p$, having strong gradient-sparsity
$s^*:=\|\nabla_G \boldsymbol{\theta}^*\|_0$ on an underlying graph $G$. Given
observations $Z_1,\ldots,Z_n$ and a smooth, convex loss function $\mathcal{L}$
for which $\boldsymbol{\theta}^*$ minimizes the population risk
$\mathbb{E}[\mathcal{L}(\boldsymbol{\theta};Z_1,\ldots,Z_n)]$, we propose to
estimate $\boldsymbol{\theta}^*$ by a projected gradient descent algorithm that
iteratively and approximately projects gradient steps onto spaces of vectors
having small gradient-sparsity over low-degree spanning trees of $G$. We show
that, under suitable restricted strong convexity and smoothness assumptions for
the loss, the resulting estimator achieves the squared-error risk
$\frac{s^*}{n} \log (1+\frac{p}{s^*})$ up to a multiplicative constant that is
independent of $G$. In contrast, previous polynomial-time algorithms have only
been shown to achieve this guarantee in more specialized settings, or under
additional assumptions for $G$ and/or the sparsity pattern of $\nabla_G
\boldsymbol{\theta}^*$. As applications of our general framework, we apply our
results to the examples of linear models and generalized linear models with
random design.
- Abstract(参考訳): グラデーション・スパースパラメータベクトル $\boldsymbol{\theta}^* \in \mathbb{r}^p$ の推定について検討し、基礎となるグラフ $g$ 上で強い勾配分離性$s^*:|\nabla_g \boldsymbol{\theta}^*\|_0$ を持つ。
Z_1,\ldots,Z_n$ および滑らかな凸損失関数 $\mathcal{L}$ に対して、$\boldsymbol{\theta}^*$ は人口リスク $\mathbb{E}[\mathcal{L}(\boldsymbol{\theta};Z_1,\ldots,Z_n)]$ を最小化する。
適切な制限された強凸性と損失に対する滑らかさの仮定の下で、結果として生じる推定器は、$g$から独立な乗算定数まで2乗誤差のリスク$\frac{s^*}{n} \log (1+\frac{p}{s^*}) を達成する。
対照的に、従来の多項式時間アルゴリズムは、より特殊な設定、または$g$と/または$\nabla_g \boldsymbol{\theta}^*$のスパーシティパターンに対する追加の仮定の下でのみこの保証を達成することが示されている。
