論文の概要: Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation
- arxiv url: http://arxiv.org/abs/2110.10461v1
- Date: Wed, 20 Oct 2021 09:57:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 14:32:30.077801
- Title: Scalable One-Pass Optimisation of High-Dimensional Weight-Update
Hyperparameters by Implicit Differentiation
- Title(参考訳): 入射差分法による高次元重み付けハイパーパラメータのスケーラブル1パス最適化
- Authors: Ross M. Clarke, Elre T. Oldewage, Jos\'e Miguel Hern\'andez-Lobato
- Abstract要約: 近似的過勾配型ハイパーパラメータオプティマイザを開発した。
トレーニングは1回のみであり、再スタートは行わない。
また、真の過次性への収束を動機づける議論も提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning training methods depend plentifully and intricately on
hyperparameters, motivating automated strategies for their optimisation. Many
existing algorithms restart training for each new hyperparameter choice, at
considerable computational cost. Some hypergradient-based one-pass methods
exist, but these either cannot be applied to arbitrary optimiser
hyperparameters (such as learning rates and momenta) or take several times
longer to train than their base models. We extend these existing methods to
develop an approximate hypergradient-based hyperparameter optimiser which is
applicable to any continuous hyperparameter appearing in a differentiable model
weight update, yet requires only one training episode, with no restarts. We
also provide a motivating argument for convergence to the true hypergradient,
and perform tractable gradient-based optimisation of independent learning rates
for each model parameter. Our method performs competitively from varied random
hyperparameter initialisations on several UCI datasets and Fashion-MNIST (using
a one-layer MLP), Penn Treebank (using an LSTM) and CIFAR-10 (using a
ResNet-18), in time only 2-3x greater than vanilla training.
- Abstract(参考訳): 機械学習のトレーニング手法は、ハイパーパラメーターに依存し、最適化のための自動戦略を動機付ける。
多くの既存のアルゴリズムが計算コストで新しいハイパーパラメータ選択のトレーニングを再開している。
いくつかのハイパーグレードベースのワンパス法が存在するが、これらは任意のオプティマイザーハイパーパラメータ(学習率やモーメントなど)に適用できないか、ベースモデルよりもトレーニングに数倍時間がかかる。
我々は,これらの既存手法を拡張して,拡張可能なモデル重み更新に現れる任意の連続ハイパーパラメータに適用可能な,超勾配ベースのハイパーパラメータオプティマイザーを開発する。
また、真の過次性への収束を動機づける議論を行い、各モデルパラメータに対する独立学習率のトラクタブル勾配に基づく最適化を行う。
提案手法は,複数のUCIデータセットとFashion-MNIST(一層MLP),Penn Treebank(LSTM),CIFAR-10(ResNet-18)のランダムなハイパーパラメータの初期化から,バニラトレーニングの2~3倍の時間で競合的に動作する。
関連論文リスト
- Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Online Hyperparameter Optimization for Class-Incremental Learning [99.70569355681174]
クラス増分学習(Class-incremental Learning, CIL)は、クラス数がフェーズごとに増加する一方で、分類モデルを訓練することを目的としている。
CILの固有の課題は、安定性と塑性のトレードオフである。すなわち、CILモデルは古い知識を保ち、新しい知識を吸収するためにプラスチックを保たなければならない。
本稿では,事前設定を知らずにトレードオフを適応的に最適化するオンライン学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-11T17:58:51Z) - Flatter, faster: scaling momentum for optimal speedup of SGD [0.0]
ニューラルネットワークのトレーニングにおいて、勾配降下(SGD)とラベルノイズと運動量との相互作用から生じるトレーニングダイナミクスについて検討した。
運動量ハイパーパラメータ1-NISTbeta$を学習率で2/3$にスケーリングすると、一般化を犠牲にすることなく、最大で2/3$のトレーニングが加速することがわかった。
論文 参考訳(メタデータ) (2022-10-28T20:41:48Z) - Online Weighted Q-Ensembles for Reduced Hyperparameter Tuning in
Reinforcement Learning [0.38073142980732994]
強化学習はロボット制御を学ぶための有望なパラダイムであり、ダイナミックスモデルを必要とせずに複雑な制御ポリシーを学習することができる。
本稿では,複数の強化学習エージェントのアンサンブルを用いて,それぞれ異なるパラメータの集合と,最適な演奏セットを選択するメカニズムを提案する。
オンライン重み付きQ-アンサンブルは,q平均アンサンブルと比較した場合,全体の低分散と優れた結果を示した。
論文 参考訳(メタデータ) (2022-09-29T19:57:43Z) - Online Hyperparameter Meta-Learning with Hypergradient Distillation [59.973770725729636]
勾配に基づくメタラーニング法は、内部最適化に関与しないパラメータのセットを仮定する。
知識蒸留による2次項の近似により,これらの限界を克服できる新しいHO法を提案する。
論文 参考訳(メタデータ) (2021-10-06T05:14:53Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - HyperMorph: Amortized Hyperparameter Learning for Image Registration [8.13669868327082]
HyperMorphは、変形可能な画像登録のための学習ベースの戦略です。
既存の検索戦略よりもはるかに高速に複数のハイパーパラメータを最適化できることを示す。
論文 参考訳(メタデータ) (2021-01-04T15:39:16Z) - Hippo: Taming Hyper-parameter Optimization of Deep Learning with Stage
Trees [2.294014185517203]
トレーニングプロセスの冗長性を除去し,計算量を大幅に削減するハイパーパラメータ最適化システムであるHippoを提案する。
ヒッポは単一の研究だけでなく、同じモデルと探索空間の複数の研究を段階木として定式化できるマルチスタディシナリオにも適用できる。
論文 参考訳(メタデータ) (2020-06-22T02:36:12Z) - Weighted Random Search for CNN Hyperparameter Optimization [0.0]
本稿では、ランダム探索(RS)と確率的欲求を組み合わせた重み付きランダム探索(WRS)手法を提案する。
基準は、ハイパーパラメーター値の試験された組み合わせの同じ数内で達成される分類精度である。
我々の実験によると、WRSアルゴリズムは他の手法よりも優れています。
論文 参考訳(メタデータ) (2020-03-30T09:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。