論文の概要: On the Benefits of Large Learning Rates for Kernel Methods
- arxiv url: http://arxiv.org/abs/2202.13733v1
- Date: Mon, 28 Feb 2022 13:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 01:14:12.014121
- Title: On the Benefits of Large Learning Rates for Kernel Methods
- Title(参考訳): カーネル法における大規模学習率の利点について
- Authors: Gaspard Beugnot, Julien Mairal, Alessandro Rudi
- Abstract要約: 本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
- 参考スコア(独自算出の注目度): 110.03020563291788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies an intriguing phenomenon related to the good
generalization performance of estimators obtained by using large learning rates
within gradient descent algorithms. First observed in the deep learning
literature, we show that a phenomenon can be precisely characterized in the
context of kernel methods, even though the resulting optimization problem is
convex. Specifically, we consider the minimization of a quadratic objective in
a separable Hilbert space, and show that with early stopping, the choice of
learning rate influences the spectral decomposition of the obtained solution on
the Hessian's eigenvectors. This extends an intuition described by Nakkiran
(2020) on a two-dimensional toy problem to realistic learning scenarios such as
kernel ridge regression. While large learning rates may be proven beneficial as
soon as there is a mismatch between the train and test objectives, we further
explain why it already occurs in classification tasks without assuming any
particular mismatch between train and test data distributions.
- Abstract(参考訳): 本稿では,勾配降下アルゴリズムにおける学習率の大きい推定器の一般化性能に関する興味深い現象について検討する。
深層学習の文献で最初に観察された結果,結果の最適化問題は凸であるにもかかわらず,カーネル手法の文脈で現象を正確に特徴付けることができることがわかった。
具体的には、分離可能なヒルベルト空間における二次目的の最小化を考察し、学習速度の選択がヘッセンの固有ベクトルに対する解のスペクトル分解に影響を与えることを示した。
これは、2次元のおもちゃ問題に関するnakkiran (2020) による直観を、カーネルリッジ回帰のような現実的な学習シナリオにまで拡張する。
列車とテストの目標の間にミスマッチがある場合,大きな学習速度が有益であることが証明されるが,列車とテストデータ分布の特定のミスマッチを仮定することなく,すでに分類タスクで発生している理由をさらに説明する。
関連論文リスト
- A Historical Trajectory Assisted Optimization Method for Zeroth-Order Federated Learning [24.111048817721592]
フェデレートラーニングは分散勾配降下技術に大きく依存している。
勾配情報が得られない状況では、勾配をゼロ次情報から推定する必要がある。
勾配推定法を改善するための非等方的サンプリング法を提案する。
論文 参考訳(メタデータ) (2024-09-24T10:36:40Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Promises and Pitfalls of the Linearized Laplace in Bayesian Optimization [73.80101701431103]
線形化ラプラス近似(LLA)はベイズニューラルネットワークの構築に有効で効率的であることが示されている。
ベイズ最適化におけるLLAの有用性について検討し,その性能と柔軟性を強調した。
論文 参考訳(メタデータ) (2023-04-17T14:23:43Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - Pairwise Learning via Stagewise Training in Proximal Setting [0.0]
非平滑凸対損失関数の収束保証と、適応的なサンプルサイズとペアワイズ学習のための重要サンプリング手法を組み合わせる。
それぞれに逆のインスタンスをサンプリングすると勾配の分散が減少し、収束が加速することを示した。
論文 参考訳(メタデータ) (2022-08-08T11:51:01Z) - Learning primal-dual sparse kernel machines [10.230121160034674]
伝統的に、カーネル法は、学習問題の解は再生されたカーネルヒルベルト空間(RKHS)にマッピングされたデータの線形結合として得られるという代表者定理に依存している。
本稿では,RKHS の要素が必ずしもトレーニングセットの要素に対応するとは限らない元データ空間において,前像分解を持つ解を求めることを提案する。
勾配に基づく手法は入力空間のスパース要素の最適化に重きを置き、原始空間と双対空間の両方でカーネルベースのモデルを得ることができる。
論文 参考訳(メタデータ) (2021-08-27T09:38:53Z) - On the Role of Optimization in Double Descent: A Least Squares Study [30.44215064390409]
最小二乗対象の降下勾配解に対して過大なリスクを負うことを示す。
ノイズのない回帰の場合、二重降下は最適化関連量によってのみ説明される。
ニューラルネットワークの予測が保たれているかどうかを実証的に調査する。
論文 参考訳(メタデータ) (2021-07-27T09:13:11Z) - From inexact optimization to learning via gradient concentration [22.152317081922437]
本稿では,滑らかな損失関数を持つ線形モデルの文脈における現象について検討する。
本稿では、不正確な最適化と確率論、特に勾配集中のアイデアを組み合わせた証明手法を提案する。
論文 参考訳(メタデータ) (2021-06-09T21:23:29Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - On Learning Rates and Schr\"odinger Operators [105.32118775014015]
本稿では,学習率の影響に関する一般的な理論的分析を行う。
学習速度は、幅広い非ニューラルクラス関数に対してゼロとなる傾向にある。
論文 参考訳(メタデータ) (2020-04-15T09:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。