論文の概要: Hyper-Learning for Gradient-Based Batch Size Adaptation
- arxiv url: http://arxiv.org/abs/2205.08231v1
- Date: Tue, 17 May 2022 11:01:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-18 13:53:56.848236
- Title: Hyper-Learning for Gradient-Based Batch Size Adaptation
- Title(参考訳): 勾配ベースバッチサイズ適応のためのハイパーラーニング
- Authors: Calum Robert MacLellan and Feng Dong
- Abstract要約: バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
- 参考スコア(独自算出の注目度): 2.944323057176686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scheduling the batch size to increase is an effective strategy to control
gradient noise when training deep neural networks. Current approaches implement
scheduling heuristics that neglect structure within the optimization procedure,
limiting their flexibility to the training dynamics and capacity to discern the
impact of their adaptations on generalization. We introduce Arbiter as a new
hyperparameter optimization algorithm to perform batch size adaptations for
learnable scheduling heuristics using gradients from a meta-objective function,
which overcomes previous heuristic constraints by enforcing a novel learning
process called hyper-learning. With hyper-learning, Arbiter formulates a neural
network agent to generate optimal batch size samples for an inner deep network
by learning an adaptive heuristic through observing concomitant responses over
T inner descent steps. Arbiter avoids unrolled optimization, and does not
require hypernetworks to facilitate gradients, making it reasonably cheap,
simple to implement, and versatile to different tasks. We demonstrate Arbiter's
effectiveness in several illustrative experiments: to act as a stand-alone
batch size scheduler; to complement fixed batch size schedules with greater
flexibility; and to promote variance reduction during stochastic
meta-optimization of the learning rate.
- Abstract(参考訳): バッチサイズの増加をスケジューリングすることは、ディープニューラルネットワークをトレーニングする際の勾配ノイズを制御する効果的な戦略である。
現在のアプローチでは、最適化手順内の構造を無視するスケジューリングヒューリスティックを実装し、その柔軟性をトレーニングダイナミクスに制限し、一般化に対する適応の影響を識別する。
本稿では,メタ目的関数からの勾配を用いた学習可能なスケジューリングヒューリスティックに対するバッチサイズ適応を行うための新しいハイパーパラメータ最適化アルゴリズムとしてarbiterを導入する。
ハイパーラーニングにより、Arbiterはニューラルネットワークエージェントを定式化し、T内部降下ステップ上の共役反応を観察して適応的ヒューリスティックを学習することで、インナーディープネットワークのための最適なバッチサイズサンプルを生成する。
Arbiterはアンロール最適化を回避し、勾配を緩和するためにハイパーネットワークを必要としないため、合理的に安価で、実装が簡単で、異なるタスクに多用できる。
単回バッチサイズスケジューラとして動作し,固定バッチサイズスケジューラを高い柔軟性で補完し,確率的メタ最適化時の分散低減を促進するという,いくつかの実証実験においてarbiterの有効性を示す。
関連論文リスト
- Split-Boost Neural Networks [1.1549572298362787]
本稿では,スプリットブートと呼ばれるフィードフォワードアーキテクチャの革新的なトレーニング戦略を提案する。
このような新しいアプローチは、最終的に正規化項を明示的にモデル化することを避けることができる。
提案した戦略は、ベンチマーク医療保険設計問題内の実世界の(匿名化された)データセットでテストされる。
論文 参考訳(メタデータ) (2023-09-06T17:08:57Z) - Accelerated Training via Incrementally Growing Neural Networks using
Variance Transfer and Learning Rate Adaptation [34.7523496790944]
本研究では,ニューラルネットワークを効率的に成長させる手法を開発し,パラメータ化と最適化の戦略をトレーニングダイナミクスを考慮して設計する。
提案手法は,従来のトレーニング予算の大部分を節約しつつ,大規模な固定サイズモデルのトレーニングよりも高い精度で達成可能であることを示す。
論文 参考訳(メタデータ) (2023-06-22T07:06:45Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Gradient Monitored Reinforcement Learning [0.0]
我々は、強化学習アルゴリズムにおける訓練の強化と評価性能に焦点をあてる。
本稿では,トレーニングプロセス自体からの動的発達とフィードバックに基づいて,ニューラルネットワークの重みパラメータの学習をステアリングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-25T13:45:47Z) - Subset Sampling For Progressive Neural Network Learning [106.12874293597754]
プログレッシブニューラルネットワーク学習は、ネットワークのトポロジを漸進的に構築し、トレーニングデータに基づいてパラメータを最適化するアルゴリズムのクラスである。
段階的なトレーニングステップ毎にトレーニングデータのサブセットを活用することで,このプロセスの高速化を提案する。
オブジェクト,シーン,顔の認識における実験結果から,提案手法が最適化手順を大幅に高速化することを示す。
論文 参考訳(メタデータ) (2020-02-17T18:57:33Z) - Large Batch Training Does Not Need Warmup [111.07680619360528]
大きなバッチサイズを使用してディープニューラルネットワークをトレーニングすることは、有望な結果を示し、多くの現実世界のアプリケーションに利益をもたらしている。
本稿では,大規模バッチ学習のための全層適応レートスケーリング(CLARS)アルゴリズムを提案する。
分析に基づいて,このギャップを埋め,3つの一般的な大規模バッチトレーニング手法の理論的洞察を提示する。
論文 参考訳(メタデータ) (2020-02-04T23:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。