論文の概要: Stability and Generalization of Bilevel Programming in Hyperparameter
Optimization
- arxiv url: http://arxiv.org/abs/2106.04188v1
- Date: Tue, 8 Jun 2021 08:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-09 15:40:02.496475
- Title: Stability and Generalization of Bilevel Programming in Hyperparameter
Optimization
- Title(参考訳): ハイパーパラメータ最適化における双レベルプログラミングの安定性と一般化
- Authors: Fan Bao, Guoqiang Wu, Chongxuan Li, Jun Zhu, Bo Zhang
- Abstract要約: 理論的な観点から,勾配に基づくアルゴリズムは特定の条件下でのクロスバリデーションよりも優れていることを示す。
我々は、外層と内層の両方における正規化項が勾配に基づくアルゴリズムにおける過度な問題を軽減することを証明した。
- 参考スコア(独自算出の注目度): 38.93716746097571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the (gradient-based) bilevel programming framework is widely used
in hyperparameter optimization and has achieved excellent performance
empirically. Previous theoretical work mainly focuses on its optimization
properties, while leaving the analysis on generalization largely open. This
paper attempts to address the issue by presenting an expectation bound w.r.t.
the validation set based on uniform stability. Our results can explain some
mysterious behaviours of the bilevel programming in practice, for instance,
overfitting to the validation set. We also present an expectation bound for the
classical cross-validation algorithm. Our results suggest that gradient-based
algorithms can be better than cross-validation under certain conditions in a
theoretical perspective. Furthermore, we prove that regularization terms in
both the outer and inner levels can relieve the overfitting problem in
gradient-based algorithms. In experiments on feature learning and data
reweighting for noisy labels, we corroborate our theoretical findings.
- Abstract(参考訳): 近年、(勾配ベースの)二レベルプログラミングフレームワークは、ハイパーパラメータの最適化に広く使われ、経験的に優れたパフォーマンスを達成している。
以前の理論的な研究は、主にその最適化特性に焦点を合わせ、一方、一般化に関する分析は概ねオープンである。
本稿では,予測値w.r.tを提示することでこの問題に対処しようとする。
均一安定性に基づく 検証セット。
我々の結果は、例えば検証セットに過度に適合するような、実際に二段階プログラミングの神秘的な振る舞いを説明することができる。
また,古典的クロスバリデーションアルゴリズムの期待値を示す。
理論的観点からは,勾配に基づくアルゴリズムは特定の条件下でのクロスバリデーションよりも優れていることが示唆された。
さらに,外層および内層における正規化項が勾配アルゴリズムの過度適合問題を緩和することを示した。
雑音ラベルに対する特徴学習とデータ再重み付けの実験では,理論的知見を裏付ける。
関連論文リスト
- Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - High-Probability Bounds for Stochastic Optimization and Variational
Inequalities: the Case of Unbounded Variance [59.211456992422136]
制約の少ない仮定の下で高確率収束結果のアルゴリズムを提案する。
これらの結果は、標準機能クラスに適合しない問題を最適化するために検討された手法の使用を正当化する。
論文 参考訳(メタデータ) (2023-02-02T10:37:23Z) - Distributed Stochastic Optimization under a General Variance Condition [13.911633636387059]
分散最適化は最近、大規模な機械学習問題の解決に効果があるとして、大きな注目を集めている。
我々は、古典的フェデレーション平均化(Avg)を再考し、滑らかな非対象関数に対して、緩やかな分散しか持たない収束結果を確立する。
ほぼ1つの定常収束点も勾配条件の下で成立する。
論文 参考訳(メタデータ) (2023-01-30T05:48:09Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Meta-Regularization: An Approach to Adaptive Choice of the Learning Rate
in Gradient Descent [20.47598828422897]
第一次下降法における学習率の適応的選択のための新しいアプローチであるtextit-Meta-Regularizationを提案する。
本手法は,正規化項を追加して目的関数を修正し,共同処理パラメータをキャストする。
論文 参考訳(メタデータ) (2021-04-12T13:13:34Z) - Learning Prediction Intervals for Regression: Generalization and
Calibration [12.576284277353606]
不確実性定量のための回帰における予測間隔の生成について検討する。
我々は一般学習理論を用いて、リプシッツ連続性とVC-サブグラフクラスを含む最適性と実現可能性のトレードオフを特徴づける。
我々は既存のベンチマークと比べてテスト性能の点で、区間生成とキャリブレーションアルゴリズムの強みを実証的に示している。
論文 参考訳(メタデータ) (2021-02-26T17:55:30Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - Convergence Properties of Stochastic Hypergradients [38.64355126221992]
大規模データセットにおける低レベルの問題が経験的リスクである場合に重要となる過勾配の近似スキームについて検討する。
本研究では,理論解析を支援する数値実験を行い,実際にハイパーグラディエントを用いることの利点を示す。
論文 参考訳(メタデータ) (2020-11-13T20:50:36Z) - Beyond variance reduction: Understanding the true impact of baselines on
policy optimization [24.09670734037029]
学習力学は損失関数の曲率と勾配推定の雑音によって制御されることを示す。
我々は,少なくとも包帯問題では,曲率や雑音が学習力学を説明するのに十分でないことを示す理論的結果を示す。
論文 参考訳(メタデータ) (2020-08-31T17:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。