論文の概要: A Globally Convergent Gradient-based Bilevel Hyperparameter Optimization
Method
- arxiv url: http://arxiv.org/abs/2208.12118v2
- Date: Sun, 18 Jun 2023 12:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 05:47:26.856138
- Title: A Globally Convergent Gradient-based Bilevel Hyperparameter Optimization
Method
- Title(参考訳): グローバル収束勾配型バイレベルハイパーパラメータ最適化法
- Authors: Ankur Sinha, Satender Gunwal and Shivam Kumar
- Abstract要約: ハイパーパラメータ最適化問題の解法として,勾配に基づく双レベル法を提案する。
提案手法は, より低い計算量に収束し, テストセットをより良く一般化するモデルに導かれることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hyperparameter optimization in machine learning is often achieved using naive
techniques that only lead to an approximate set of hyperparameters. Although
techniques such as Bayesian optimization perform an intelligent search on a
given domain of hyperparameters, it does not guarantee an optimal solution. A
major drawback of most of these approaches is an exponential increase of their
search domain with number of hyperparameters, increasing the computational cost
and making the approaches slow. The hyperparameter optimization problem is
inherently a bilevel optimization task, and some studies have attempted bilevel
solution methodologies for solving this problem. However, these studies assume
a unique set of model weights that minimize the training loss, which is
generally violated by deep learning architectures. This paper discusses a
gradient-based bilevel method addressing these drawbacks for solving the
hyperparameter optimization problem. The proposed method can handle continuous
hyperparameters for which we have chosen the regularization hyperparameter in
our experiments. The method guarantees convergence to the set of optimal
hyperparameters that this study has theoretically proven. The idea is based on
approximating the lower-level optimal value function using Gaussian process
regression. As a result, the bilevel problem is reduced to a single level
constrained optimization task that is solved using the augmented Lagrangian
method. We have performed an extensive computational study on the MNIST and
CIFAR-10 datasets on multi-layer perceptron and LeNet architectures that
confirms the efficiency of the proposed method. A comparative study against
grid search, random search, Bayesian optimization, and HyberBand method on
various hyperparameter problems shows that the proposed algorithm converges
with lower computation and leads to models that generalize better on the
testing set.
- Abstract(参考訳): 機械学習におけるハイパーパラメータ最適化は、通常、近似したハイパーパラメータセットのみをもたらすナイーブなテクニックによって達成される。
ベイズ最適化のような手法は、与えられたハイパーパラメータの領域をインテリジェントに探索するが、最適解を保証しない。
これらのアプローチの大きな欠点は、ハイパーパラメータの数で探索領域が指数関数的に増加し、計算コストが増加し、アプローチが遅くなることである。
超パラメータ最適化問題は本質的には二段階最適化問題であり、この問題を解決するための二段階解法を試みている研究もある。
しかしながら、これらの研究はトレーニング損失を最小限にするユニークなモデル重み付けを仮定している。
本稿では,超パラメータ最適化問題の解法として,これらの欠点に対処する勾配法について述べる。
提案手法は,実験で正規化ハイパーパラメータを選択した連続ハイパーパラメータを扱うことができる。
この手法は、理論的に証明された最適パラメータの集合への収束を保証する。
この考え方はガウス過程回帰を用いた低レベル最適値関数の近似に基づいている。
その結果、二レベル問題は、拡張ラグランジアン法を用いて解決される単一レベル制約最適化タスクに還元される。
我々は,MNISTおよびCIFAR-10データセットを多層パーセプトロンおよびLeNetアーキテクチャ上で広範囲に計算し,提案手法の有効性を確認した。
格子探索, ランダム探索, ベイズ最適化, ハイバーバンド法の比較研究により, 提案アルゴリズムはより低い計算量に収束し, テストセットをより一般化するモデルが導かれることを示した。
関連論文リスト
- An Optimization-based Deep Equilibrium Model for Hyperspectral Image
Deconvolution with Convergence Guarantees [71.57324258813675]
本稿では,ハイパースペクトル画像のデコンボリューション問題に対処する新しい手法を提案する。
新しい最適化問題を定式化し、学習可能な正規化器をニューラルネットワークの形で活用する。
導出した反復解法は、Deep Equilibriumフレームワーク内の不動点計算問題として表現される。
論文 参考訳(メタデータ) (2023-06-10T08:25:16Z) - Analyzing Inexact Hypergradients for Bilevel Learning [0.09669369645900441]
暗黙の関数定理と自動微分/バックプロパゲーションに基づいて既存の手法を一般化する過次計算のための統一的なフレームワークを提案する。
計算結果から,高次アルゴリズムの選択は低次解法の選択と同等に重要であることが明らかとなった。
論文 参考訳(メタデータ) (2023-01-11T23:54:27Z) - A Comparative study of Hyper-Parameter Optimization Tools [2.6097538974670935]
我々は、4つのpythonライブラリ、すなわちOptuna、Hyperopt、Optunity、およびシーケンシャルモデルアルゴリズム構成(SMAC)の性能を比較した。
私たちは、OptunaがCASH問題とNeurIPSのブラックボックス最適化の課題に対してより良いパフォーマンスを持つことを発見した。
論文 参考訳(メタデータ) (2022-01-17T14:49:36Z) - Implicit differentiation for fast hyperparameter selection in non-smooth
convex learning [87.60600646105696]
内部最適化問題が凸であるが非滑らかである場合の一階法を研究する。
本研究では, ヤコビアンの近位勾配降下と近位座標降下収率列の前方モード微分が, 正確なヤコビアンに向かって収束していることを示す。
論文 参考訳(メタデータ) (2021-05-04T17:31:28Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z) - Efficient hyperparameter optimization by way of PAC-Bayes bound
minimization [4.191847852775072]
本稿では,期待外誤差に縛られた確率的近似ベイズ(PAC-Bayes)と等価な別の目的について述べる。
そして、この目的を最小化するために、効率的な勾配に基づくアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-08-14T15:54:51Z) - A Gradient-based Bilevel Optimization Approach for Tuning
Hyperparameters in Machine Learning [0.0]
本稿では,ハイパーパラメータ最適化問題の解法として,二段階解法を提案する。
提案手法は汎用的で,任意の種類の機械学習アルゴリズムに容易に適用可能である。
提案アルゴリズムの背景にある理論を議論し、2つのデータセットについて広範な計算研究を行う。
論文 参考訳(メタデータ) (2020-07-21T18:15:08Z) - Cross Entropy Hyperparameter Optimization for Constrained Problem
Hamiltonians Applied to QAOA [68.11912614360878]
QAOA(Quantum Approximate Optimization Algorithm)のようなハイブリッド量子古典アルゴリズムは、短期量子コンピュータを実用的に活用するための最も奨励的なアプローチの1つである。
このようなアルゴリズムは通常変分形式で実装され、古典的な最適化法と量子機械を組み合わせて最適化問題の優れた解を求める。
本研究では,クロスエントロピー法を用いてランドスケープを形作り,古典的パラメータがより容易により良いパラメータを発見でき,その結果,性能が向上することを示す。
論文 参考訳(メタデータ) (2020-03-11T13:52:41Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。