論文の概要: On the Self-Penalization Phenomenon in Feature Selection
- arxiv url: http://arxiv.org/abs/2110.05852v1
- Date: Tue, 12 Oct 2021 09:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 13:44:06.421824
- Title: On the Self-Penalization Phenomenon in Feature Selection
- Title(参考訳): 特徴選択における自己ペナライゼーション現象について
- Authors: Michael I. Jordan, Keli Liu, and Feng Ruan
- Abstract要約: カーネル群に基づく暗黙の空間性誘導機構について述べる。
アプリケーションとしては、この疎結合誘導機構を使用して、特徴選択に一貫性のあるアルゴリズムを構築します。
- 参考スコア(独自算出の注目度): 69.16452769334367
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe an implicit sparsity-inducing mechanism based on minimization
over a family of kernels: \begin{equation*}
\min_{\beta, f}~\widehat{\mathbb{E}}[L(Y, f(\beta^{1/q} \odot X)] + \lambda_n
\|f\|_{\mathcal{H}_q}^2~~\text{subject to}~~\beta \ge 0, \end{equation*} where
$L$ is the loss, $\odot$ is coordinate-wise multiplication and $\mathcal{H}_q$
is the reproducing kernel Hilbert space based on the kernel $k_q(x, x') =
h(\|x-x'\|_q^q)$, where $\|\cdot\|_q$ is the $\ell_q$ norm. Using gradient
descent to optimize this objective with respect to $\beta$ leads to exactly
sparse stationary points with high probability. The sparsity is achieved
without using any of the well-known explicit sparsification techniques such as
penalization (e.g., $\ell_1$), early stopping or post-processing (e.g.,
clipping).
As an application, we use this sparsity-inducing mechanism to build
algorithms consistent for feature selection.
- Abstract(参考訳): カーネルの族上の最小化に基づく暗黙のスペーサ性誘導機構を記述する: \begin{equation*} \min_{\beta, f}~\widehat{\mathbb{E}}[L(Y, f(\beta^{1/q} \odot X)] + \lambda_n \|f\|_{\mathcal{H}_q}^2~~\text{subject to}~\beta \ge 0, \end{equation*} ここで$L$は損失、$\odot$は座標的乗算、$\mathcal{H}_q$はカーネルの $k_q(x, x') = h(x, x') = h(\|||||||q_q) である。
勾配降下を用いて$\beta$ に関してこの目標を最適化することは、確率の高いちょうどスパースな定常点をもたらす。
スパーシリティは、ペナライゼーション(例えば$\ell_1$)、早期停止または後処理(例えば、クリッピング)など、よく知られた明示的なスペーシフィケーションテクニックを使わずに達成される。
アプリケーションとしては、この疎結合誘導機構を使用して、特徴選択に一貫性のあるアルゴリズムを構築します。
関連論文リスト
- Upper Bounds for Learning in Reproducing Kernel Hilbert Spaces for Orbits of an Iterated Function System [1.1510009152620668]
学習理論における重要な問題は、ある入力$x$と対応する出力$y$の関係を近似した関数$f$を計算することである。
この近似はサンプル点 $(x_t,y_t)_t=1m$ に基づいている。
論文 参考訳(メタデータ) (2024-10-10T20:34:22Z) - Complexity of Minimizing Projected-Gradient-Dominated Functions with Stochastic First-order Oracles [38.45952947660789]
本稿では,$(alpha,tau,mathcal)$-projected-dominanceプロパティの下で関数を最小化する一階法の性能限界について検討する。
論文 参考訳(メタデータ) (2024-08-03T18:34:23Z) - Solving Dense Linear Systems Faster Than via Preconditioning [1.8854491183340518]
我々のアルゴリズムは$tilde O(n2)$ if $k=O(n0.729)$であることを示す。
特に、我々のアルゴリズムは$tilde O(n2)$ if $k=O(n0.729)$である。
主アルゴリズムはランダム化ブロック座標降下法とみなすことができる。
論文 参考訳(メタデータ) (2023-12-14T12:53:34Z) - Convergence of a Normal Map-based Prox-SGD Method under the KL
Inequality [0.0]
我々は、$symbol$k$収束問題に対して、新しいマップベースのアルゴリズム(mathsfnorMtext-mathsfSGD$)を提案する。
論文 参考訳(メタデータ) (2023-05-10T01:12:11Z) - Low-Rank Approximation with $1/\epsilon^{1/3}$ Matrix-Vector Products [58.05771390012827]
我々は、任意のSchatten-$p$ノルムの下で、低ランク近似のためのクリロフ部分空間に基づく反復法について研究する。
我々の主な成果は、$tildeO(k/sqrtepsilon)$ matrix-vector productのみを使用するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-10T16:10:41Z) - Random matrices in service of ML footprint: ternary random features with
no performance loss [55.30329197651178]
我々は、$bf K$ の固有スペクトルが$bf w$ の i.d. 成分の分布とは独立であることを示す。
3次ランダム特徴(TRF)と呼ばれる新しいランダム手法を提案する。
提案したランダムな特徴の計算には乗算が不要であり、古典的なランダムな特徴に比べてストレージに$b$のコストがかかる。
論文 参考訳(メタデータ) (2021-10-05T09:33:49Z) - Spectral properties of sample covariance matrices arising from random
matrices with independent non identically distributed columns [50.053491972003656]
関数 $texttr(AR(z))$, for $R(z) = (frac1nXXT- zI_p)-1$ and $Ain mathcal M_p$ deterministic, have a standard deviation of order $O(|A|_* / sqrt n)$.
ここでは、$|mathbb E[R(z)] - tilde R(z)|_F を示す。
論文 参考訳(メタデータ) (2021-09-06T14:21:43Z) - DIPPA: An improved Method for Bilinear Saddle Point Problems [18.65143269806133]
本稿では,min_bfx max_bfy g(fracx) + bfxtop bfbftop fracbfa kappa_x kappa_x (kappa_x + kappa_y) kappa_y (kappa_x + kappa_y) kappa_y (kappa_x + kappa_y) kappa_y (kappa_x + kappa_y)について述べる。
論文 参考訳(メタデータ) (2021-03-15T10:55:30Z) - Optimal Regret Algorithm for Pseudo-1d Bandit Convex Optimization [51.23789922123412]
我々は,バンディットフィードバックを用いてオンライン学習を学習する。
learnerは、コスト/リワード関数が"pseudo-1d"構造を許可するゼロ次オラクルのみにアクセスできる。
我々は、$T$がラウンドの数である任意のアルゴリズムの後悔のために$min(sqrtdT、T3/4)$の下限を示しています。
ランダム化オンライングラデーション下降とカーネル化指数重み法を組み合わせた新しいアルゴリズムsbcalgを提案し,疑似-1d構造を効果的に活用する。
論文 参考訳(メタデータ) (2021-02-15T08:16:51Z) - Optimal Mean Estimation without a Variance [103.26777953032537]
本研究では,データ生成分布の分散が存在しない環境での重み付き平均推定問題について検討する。
最小の信頼区間を$n,d,delta$の関数として得る推定器を設計する。
論文 参考訳(メタデータ) (2020-11-24T22:39:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。