論文の概要: Online Hyperparameter Meta-Learning with Hypergradient Distillation
- arxiv url: http://arxiv.org/abs/2110.02508v1
- Date: Wed, 6 Oct 2021 05:14:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:20:06.596088
- Title: Online Hyperparameter Meta-Learning with Hypergradient Distillation
- Title(参考訳): 高度蒸留によるオンラインハイパーパラメータメタラーニング
- Authors: Hae Beom Lee, Hayeon Lee, Jaewoong Shin, Eunho Yang, Timothy
Hospedales, Sung Ju Hwang
- Abstract要約: 勾配に基づくメタラーニング法は、内部最適化に関与しないパラメータのセットを仮定する。
知識蒸留による2次項の近似により,これらの限界を克服できる新しいHO法を提案する。
- 参考スコア(独自算出の注目度): 59.973770725729636
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many gradient-based meta-learning methods assume a set of parameters that do
not participate in inner-optimization, which can be considered as
hyperparameters. Although such hyperparameters can be optimized using the
existing gradient-based hyperparameter optimization (HO) methods, they suffer
from the following issues. Unrolled differentiation methods do not scale well
to high-dimensional hyperparameters or horizon length, Implicit Function
Theorem (IFT) based methods are restrictive for online optimization, and short
horizon approximations suffer from short horizon bias. In this work, we propose
a novel HO method that can overcome these limitations, by approximating the
second-order term with knowledge distillation. Specifically, we parameterize a
single Jacobian-vector product (JVP) for each HO step and minimize the distance
from the true second-order term. Our method allows online optimization and also
is scalable to the hyperparameter dimension and the horizon length. We
demonstrate the effectiveness of our method on two different meta-learning
methods and three benchmark datasets.
- Abstract(参考訳): 多くの勾配に基づくメタラーニング手法は、内部最適化に関与しないパラメータの集合を仮定しており、超パラメータと見なすことができる。
このようなハイパーパラメータは、既存の勾配に基づくハイパーパラメータ最適化(HO)手法を用いて最適化できるが、以下の問題に悩まされる。
非ローリング微分法は高次元超パラメータやホライズン長に対してうまくスケールせず、暗黙関数定理(ift)に基づく手法はオンライン最適化に制限があり、短地平線近似は短地平線バイアスを負う。
本研究では, 知識蒸留による2次項の近似により, これらの限界を克服できる新しいHO法を提案する。
具体的には、hoステップごとに単一のjacob-vector積(jvp)をパラメータ化し、真の二階項からの距離を最小化する。
本手法はオンライン最適化が可能であり,ハイパーパラメータ次元や水平長にもスケーラブルである。
本稿では,2つのメタ学習手法と3つのベンチマークデータセットに対する提案手法の有効性を示す。
関連論文リスト
- Learning Algorithm Hyperparameters for Fast Parametric Convex Optimization [2.0403774954994858]
本稿では,一階法のハイパーパラメータ列を学習するための機械学習フレームワークを提案する。
いくつかのアルゴリズムのハイパーパラメータの学習方法を示す。
本稿では,制御,信号処理,機械学習など,多くの例を用いて本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-11-24T04:58:36Z) - Parameter-free Clipped Gradient Descent Meets Polyak [29.764853985834403]
勾配降下とその変種は、機械学習モデルをトレーニングするためのデファクト標準アルゴリズムである。
Inexact Polyak Stepsizeを提案し、これはハイパーパラメータチューニングなしで最適解に収束する。
合成関数を用いて収束結果を数値的に検証し,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-05-23T19:29:38Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Stochastic Marginal Likelihood Gradients using Neural Tangent Kernels [78.6096486885658]
線形化されたラプラス近似に下界を導入する。
これらの境界は漸進的な最適化が可能であり、推定精度と計算複雑性とのトレードオフを可能にする。
論文 参考訳(メタデータ) (2023-06-06T19:02:57Z) - Optimization using Parallel Gradient Evaluations on Multiple Parameters [51.64614793990665]
本稿では,複数のパラメータからの勾配を勾配降下の各ステップで利用することができる凸最適化の一階法を提案する。
本手法では,複数のパラメータからの勾配を用いて,これらのパラメータを最適方向に更新する。
論文 参考訳(メタデータ) (2023-02-06T23:39:13Z) - A Globally Convergent Gradient-based Bilevel Hyperparameter Optimization
Method [0.0]
ハイパーパラメータ最適化問題の解法として,勾配に基づく双レベル法を提案する。
提案手法は, より低い計算量に収束し, テストセットをより良く一般化するモデルに導かれることを示す。
論文 参考訳(メタデータ) (2022-08-25T14:25:16Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Efficient hyperparameter optimization by way of PAC-Bayes bound
minimization [4.191847852775072]
本稿では,期待外誤差に縛られた確率的近似ベイズ(PAC-Bayes)と等価な別の目的について述べる。
そして、この目的を最小化するために、効率的な勾配に基づくアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-08-14T15:54:51Z) - Implicit differentiation of Lasso-type models for hyperparameter
optimization [82.73138686390514]
ラッソ型問題に適した行列逆転のない効率的な暗黙微分アルゴリズムを提案する。
提案手法は,解の空間性を利用して高次元データにスケールする。
論文 参考訳(メタデータ) (2020-02-20T18:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。