論文の概要: On the Efficiency of ERM in Feature Learning
- arxiv url: http://arxiv.org/abs/2411.12029v1
- Date: Mon, 18 Nov 2024 20:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:37:36.025537
- Title: On the Efficiency of ERM in Feature Learning
- Title(参考訳): 特徴学習におけるEMMの有効性について
- Authors: Ayoub El Hanchi, Chris J. Maddison, Murat A. Erdogdu,
- Abstract要約: 特徴写像によって誘導される線形クラスの和和に対する2乗損失を伴う回帰問題に対する経験的リスク最小化の性能について検討する。
集合 $mathcalT$ が大きすぎることと、一意の最適特徴写像が存在するとき、これらの量子は、オラクル手順の過剰なリスクと最大2倍に一致することを示す。
一般仮定下での疎線形回帰における最良部分集合選択法の性能に関する新たな保証を得る。
- 参考スコア(独自算出の注目度): 31.277788690403522
- License:
- Abstract: Given a collection of feature maps indexed by a set $\mathcal{T}$, we study the performance of empirical risk minimization (ERM) on regression problems with square loss over the union of the linear classes induced by these feature maps. This setup aims at capturing the simplest instance of feature learning, where the model is expected to jointly learn from the data an appropriate feature map and a linear predictor. We start by studying the asymptotic quantiles of the excess risk of sequences of empirical risk minimizers. Remarkably, we show that when the set $\mathcal{T}$ is not too large and when there is a unique optimal feature map, these quantiles coincide, up to a factor of two, with those of the excess risk of the oracle procedure, which knows a priori this optimal feature map and deterministically outputs an empirical risk minimizer from the associated optimal linear class. We complement this asymptotic result with a non-asymptotic analysis that quantifies the decaying effect of the global complexity of the set $\mathcal{T}$ on the excess risk of ERM, and relates it to the size of the sublevel sets of the suboptimality of the feature maps. As an application of our results, we obtain new guarantees on the performance of the best subset selection procedure in sparse linear regression under general assumptions.
- Abstract(参考訳): 集合 $\mathcal{T}$ でインデックス付けされた特徴写像の集合が与えられた場合、これらの特徴写像によって誘導される線形クラスの和に対する二乗損失を伴う回帰問題に対する経験的リスク最小化(ERM)の性能について検討する。
このセットアップは、モデルがデータから適切な特徴マップと線形予測器を共同で学習することが期待される、最も単純な機能学習のインスタンスをキャプチャすることを目的としている。
まず、経験的リスク最小化器の配列の過剰なリスクの漸近的量子化の研究から始める。
注目すべきは、集合 $\mathcal{T}$ が大きすぎるわけではなく、一意の最適特徴写像が存在するとき、これらの量子は、この最適特徴写像の事前を知っており、関連する最適線形類から経験的リスク最小化器を確定的に出力するオラクル手順の過大なリスクと、最大2倍まで一致することである。
この漸近的な結果を、集合 $\mathcal{T}$ が ERM の余剰リスクに対する大域的複雑性の減衰効果を定量化する非漸近的解析で補い、特徴写像の準最適性の下位レベル集合のサイズに関連付ける。
結果の適用として, 一般仮定下での疎線形回帰において, 最良部分集合選択法の性能に関する新たな保証を得る。
関連論文リスト
- Agnostic Learning of Mixed Linear Regressions with EM and AM Algorithms [22.79595679373698]
混合線形回帰は統計学と機械学習においてよく研究されている問題である。
本稿では、サンプルから混合線形回帰を学習する際のより一般的な問題について考察する。
AMアルゴリズムとEMアルゴリズムは, 集団損失最小化器に収束することにより, 混合線形回帰学習につながることを示す。
論文 参考訳(メタデータ) (2024-06-03T09:43:24Z) - Computational-Statistical Gaps in Gaussian Single-Index Models [77.1473134227844]
単次元モデル(Single-Index Models)は、植木構造における高次元回帰問題である。
我々は,統計的クエリ (SQ) と低遅延多項式 (LDP) フレームワークの両方において,計算効率のよいアルゴリズムが必ずしも$Omega(dkstar/2)$サンプルを必要とすることを示した。
論文 参考訳(メタデータ) (2024-03-08T18:50:19Z) - Kernel-based off-policy estimation without overlap: Instance optimality
beyond semiparametric efficiency [53.90687548731265]
本研究では,観測データに基づいて線形関数を推定するための最適手順について検討する。
任意の凸および対称函数クラス $mathcalF$ に対して、平均二乗誤差で有界な非漸近局所ミニマックスを導出する。
論文 参考訳(メタデータ) (2023-01-16T02:57:37Z) - Adaptive LASSO estimation for functional hidden dynamic geostatistical
model [69.10717733870575]
関数型隠れ統計モデル(f-HD)のためのペナル化極大推定器(PMLE)に基づく新しいモデル選択アルゴリズムを提案する。
このアルゴリズムは反復最適化に基づいており、適応最小限の収縮・セレクタ演算子(GMSOLAS)ペナルティ関数を用いており、これは不給付のf-HD最大線量推定器によって得られる。
論文 参考訳(メタデータ) (2022-08-10T19:17:45Z) - Efficient and Near-Optimal Smoothed Online Learning for Generalized
Linear Functions [28.30744223973527]
我々は,K-wise線形分類において,統計学的に最適なログ(T/sigma)の後悔を初めて楽しむ計算効率のよいアルゴリズムを提案する。
一般化線形分類器によって誘導される不一致領域の幾何学の新たな特徴付けを開発する。
論文 参考訳(メタデータ) (2022-05-25T21:31:36Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - Minimax rate of consistency for linear models with missing values [0.0]
多くの実世界のデータセットでは、複数のソースが集約され、本質的に欠落した情報(センサーの故障、調査における未回答の疑問...)が欠落する。
本稿では,広範に研究された線形モデルに焦点をあてるが,不足する値が存在する場合には,非常に難しい課題であることが判明した。
最終的には、多くの学習タスクを解決し、入力機能の数を指数関数的にすることで、現在の現実世界のデータセットでは予測が不可能になる。
論文 参考訳(メタデータ) (2022-02-03T08:45:34Z) - Nonconvex Stochastic Scaled-Gradient Descent and Generalized Eigenvector
Problems [98.34292831923335]
オンライン相関解析の問題から,emphStochastic Scaled-Gradient Descent (SSD)アルゴリズムを提案する。
我々はこれらのアイデアをオンライン相関解析に適用し、局所収束率を正規性に比例した最適な1時間スケールのアルゴリズムを初めて導いた。
論文 参考訳(メタデータ) (2021-12-29T18:46:52Z) - Risk Bounds and Rademacher Complexity in Batch Reinforcement Learning [36.015585972493575]
本稿では,一般値関数近似を用いたバッチ強化学習(RL)について考察する。
Empirical Risk Minimizer (ERM) の過剰リスクは、関数クラスの Rademacher 複雑性によって有界である。
高速統計率は局所ラデマッハ複雑性のツールを使用することで達成できる。
論文 参考訳(メタデータ) (2021-03-25T14:45:29Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Interpolating Predictors in High-Dimensional Factor Regression [2.1055643409860743]
この研究は、高次元回帰モデルにおける最小ノルム補間予測子のリスクの有限サンプル特性を研究する。
主成分回帰と隆起回帰に基づいて予測器に類似したリスクを負うことができ、高次元状態においてLASSOに基づく予測器よりも改善できることを示す。
論文 参考訳(メタデータ) (2020-02-06T22:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。