論文の概要: Automatic Tuning of Stochastic Gradient Descent with Bayesian
Optimisation
- arxiv url: http://arxiv.org/abs/2006.14376v1
- Date: Thu, 25 Jun 2020 13:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 03:40:32.615989
- Title: Automatic Tuning of Stochastic Gradient Descent with Bayesian
Optimisation
- Title(参考訳): ベイズ最適化による確率勾配降下の自動チューニング
- Authors: Victor Picheny, Vincent Dutordoir, Artem Artemev, Nicolas Durrande
- Abstract要約: 我々は,潜在ガウス過程と自己回帰的定式化に基づく,オプティマイザのトレースに対する元の確率モデルを導入する。
新しい学習率値によって引き起こされる行動の急激な変化に柔軟に調整する。
まず、コールドスタート実行のための学習率のオンライン適応のために、次に、同様のタスクセットのスケジュールを調整し、新しいタスクのためにウォームスタートするために、一連の問題に取り組むのが適しています。
- 参考スコア(独自算出の注目度): 8.340191147575307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many machine learning models require a training procedure based on running
stochastic gradient descent. A key element for the efficiency of those
algorithms is the choice of the learning rate schedule. While finding good
learning rates schedules using Bayesian optimisation has been tackled by
several authors, adapting it dynamically in a data-driven way is an open
question. This is of high practical importance to users that need to train a
single, expensive model. To tackle this problem, we introduce an original
probabilistic model for traces of optimisers, based on latent Gaussian
processes and an auto-/regressive formulation, that flexibly adjusts to abrupt
changes of behaviours induced by new learning rate values. As illustrated, this
model is well-suited to tackle a set of problems: first, for the on-line
adaptation of the learning rate for a cold-started run; then, for tuning the
schedule for a set of similar tasks (in a classical BO setup), as well as
warm-starting it for a new task.
- Abstract(参考訳): 多くの機械学習モデルは、確率勾配降下に基づくトレーニング手順を必要とする。
これらのアルゴリズムの効率性の重要な要素は、学習率スケジュールの選択である。
ベイズ最適化を使って優れた学習率のスケジュールを見つけることは、いくつかの著者によって取り組まれているが、データ駆動の方法で動的にそれを適用することは、オープン質問である。
単一の高価なモデルをトレーニングする必要があるユーザーにとって、これは非常に実用的です。
そこで本研究では,潜在ガウス過程と自己回帰的定式化に基づき,新しい学習率値によって引き起こされる行動の変化に対して柔軟に適応する光学系トレースの確率モデルを提案する。
上述したように、このモデルは、まず、コールドスタート実行における学習率のオンライン適応のために、次に、類似したタスクのセット(古典的なBO設定)のスケジュールを調整し、新しいタスクのためにウォームスタートする、という一連の問題に対処するのに適している。
関連論文リスト
- Mechanic: A Learning Rate Tuner [52.4242550204696]
我々は,任意の基本最適化アルゴリズムの学習率尺度係数を調整し,自動的にスケジュールする手法を導入し,それをテクスチャメカニックと呼ぶ。
各種バッチサイズ,スケジュール,基本最適化アルゴリズムを用いて,大規模深層学習タスクにおけるテクスチャメカニックを厳格に評価する。
論文 参考訳(メタデータ) (2023-05-31T19:32:43Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Meta Learning MPC using Finite-Dimensional Gaussian Process
Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。
本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-13T15:59:38Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Statistical Adaptive Stochastic Gradient Methods [34.859895010071234]
本研究では、勾配法における学習率(ステップサイズ)を自動的にスケジューリングするSALSAと呼ばれる統計的適応手法を提案する。
SALSAはまずスムーズな線探索法を用いて学習率を徐々に増加させ、その後自動的に学習率を低下させる。
本発明の学習率低下方法は、一定のステップサイズを使用すると、ステーションスイッチを検出するための新しい統計テストに基づいている。
論文 参考訳(メタデータ) (2020-02-25T00:04:16Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。