論文の概要: To Each Optimizer a Norm, To Each Norm its Generalization
- arxiv url: http://arxiv.org/abs/2006.06821v1
- Date: Thu, 11 Jun 2020 21:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 12:36:31.888697
- Title: To Each Optimizer a Norm, To Each Norm its Generalization
- Title(参考訳): ノルムを最適化する各ノルムとその一般化
- Authors: Sharan Vaswani, Reza Babanezhad, Jose Gallego-Posada, Aaron Mishkin,
Simon Lacoste-Julien, Nicolas Le Roux
- Abstract要約: 過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。
我々は、標準最大値 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより良い一般化をもたらすことを示す。
- 参考スコア(独自算出の注目度): 31.682969645989512
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the implicit regularization of optimization methods for linear
models interpolating the training data in the under-parametrized and
over-parametrized regimes. Since it is difficult to determine whether an
optimizer converges to solutions that minimize a known norm, we flip the
problem and investigate what is the corresponding norm minimized by an
interpolating solution. Using this reasoning, we prove that for
over-parameterized linear regression, projections onto linear spans can be used
to move between different interpolating solutions. For under-parameterized
linear classification, we prove that for any linear classifier separating the
data, there exists a family of quadratic norms ||.||_P such that the
classifier's direction is the same as that of the maximum P-margin solution.
For linear classification, we argue that analyzing convergence to the standard
maximum l2-margin is arbitrary and show that minimizing the norm induced by the
data results in better generalization. Furthermore, for over-parameterized
linear classification, projections onto the data-span enable us to use
techniques from the under-parameterized setting. On the empirical side, we
propose techniques to bias optimizers towards better generalizing solutions,
improving their test performance. We validate our theoretical results via
synthetic experiments, and use the neural tangent kernel to handle non-linear
models.
- Abstract(参考訳): 過度なパラメータ化と過度なパラメータ化の条件下でのトレーニングデータを補間する線形モデルに対する最適化手法の暗黙的な正規化について検討する。
最適化器が既知のノルムを最小化する解に収束するかどうかを決定することは困難であるため、問題を反転させ、補間解によって最小化される対応するノルムが何であるかを調べる。
この推論を用いて、過パラメータ化線形回帰に対して、線形スパンへの射影は異なる補間解の間を移動するために使用できることを示す。
低パラメータ線形分類では、データを分離する任意の線形分類器に対して、二次ノルム || の族が存在することが証明される。
||_P は、分類器の方向が最大 P-マルジン解の方向と同じである。
線形分類では、標準最大 l2-margin への収束解析は任意であり、データによって誘導されるノルムの最小化がより一般化をもたらすことを示す。
さらに、過度パラメータ化線形分類では、データスパンへの投影により、過度パラメータ化設定からのテクニックを利用できる。
経験的側面では、ソリューションを一般化し、テストパフォーマンスを改善するために最適化器をバイアスする手法を提案する。
我々は、合成実験により理論結果を検証し、ニューラルネットワークカーネルを用いて非線形モデルを扱う。
関連論文リスト
- Synergistic eigenanalysis of covariance and Hessian matrices for enhanced binary classification [72.77513633290056]
本稿では, 学習モデルを用いて評価したヘッセン行列をトレーニングセットで評価した共分散行列の固有解析と, 深層学習モデルで評価したヘッセン行列を組み合わせた新しい手法を提案する。
本手法は複雑なパターンと関係を抽出し,分類性能を向上する。
論文 参考訳(メタデータ) (2024-02-14T16:10:42Z) - Regularized Linear Discriminant Analysis Using a Nonlinear Covariance
Matrix Estimator [11.887333567383239]
線形判別分析(LDA)はデータ分類において広く用いられている手法である。
LDAは、データ共分散行列が不条件であるときに非効率になる。
このような状況に対応するために正規化LDA法が提案されている。
論文 参考訳(メタデータ) (2024-01-31T11:37:14Z) - Gradient-based bilevel optimization for multi-penalty Ridge regression
through matrix differential calculus [0.46040036610482665]
我々は,l2-正則化を用いた線形回帰問題に対する勾配に基づくアプローチを導入する。
提案手法はLASSO, Ridge, Elastic Netレグレッションよりも優れていることを示す。
勾配の解析は、自動微分と比較して計算時間の観点からより効率的であることが証明されている。
論文 参考訳(メタデータ) (2023-11-23T20:03:51Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - The Inductive Bias of Flatness Regularization for Deep Matrix
Factorization [58.851514333119255]
この研究は、ディープ線形ネットワークにおけるヘッセン解の最小トレースの帰納バイアスを理解するための第一歩となる。
測定値の標準等尺性(RIP)が1より大きいすべての深さについて、ヘッセンのトレースを最小化することは、対応する終端行列パラメータのシャッテン 1-ノルムを最小化するのとほぼ同値であることを示す。
論文 参考訳(メタデータ) (2023-06-22T23:14:57Z) - Linear Convergence of Reshuffling Kaczmarz Methods With Sparse
Constraints [7.936519714074615]
カッツマルツ行列(英語版)(KZ)とその変種は、部分線型方程式系を解く際の単純さと効率性のために広く研究されている。
KHT に対する最初の理論的収束保証は、空間的制約のある系の解に線形に収束することを示すことである。
論文 参考訳(メタデータ) (2023-04-20T07:14:24Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z) - Adaptive and Oblivious Randomized Subspace Methods for High-Dimensional
Optimization: Sharp Analysis and Lower Bounds [37.03247707259297]
2次統計が入力データを反映する相関ランダム行列をサンプリングすることにより、適切な適応部分空間を生成することができる。
ランダム化された近似の相対誤差は、データ行列のスペクトルの観点から厳密に特徴付けることができることを示した。
実験の結果,提案手法は様々な機械学習および最適化問題において,大幅な高速化を可能にすることがわかった。
論文 参考訳(メタデータ) (2020-12-13T13:02:31Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z) - Random extrapolation for primal-dual coordinate descent [61.55967255151027]
本稿では,データ行列の疎度と目的関数の好適な構造に適応する,ランダムに外挿した原始-双対座標降下法を提案する。
一般凸凹の場合, 主対差と目的値に対するシーケンスのほぼ確実に収束と最適サブ線形収束率を示す。
論文 参考訳(メタデータ) (2020-07-13T17:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。