論文の概要: On the Parameterization of Second-Order Optimization Effective Towards
the Infinite Width
- arxiv url: http://arxiv.org/abs/2312.12226v1
- Date: Tue, 19 Dec 2023 15:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:15:48.552225
- Title: On the Parameterization of Second-Order Optimization Effective Towards
the Infinite Width
- Title(参考訳): 無限幅に対する二階最適化のパラメータ化について
- Authors: Satoki Ishikawa and Ryo Karakida
- Abstract要約: 特徴学習を安定的に促進する2次最適化のための特定のパラメータ化を同定する。
最大更新パラメータ化にインスパイアされ、勾配の一段階更新を考える。
提案手法では,K-FAC と Shampoo の2次最適化アルゴリズムについて述べる。
- 参考スコア(独自算出の注目度): 6.164223149261533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order optimization has been developed to accelerate the training of
deep neural networks and it is being applied to increasingly larger-scale
models. In this study, towards training on further larger scales, we identify a
specific parameterization for second-order optimization that promotes feature
learning in a stable manner even if the network width increases significantly.
Inspired by a maximal update parameterization, we consider a one-step update of
the gradient and reveal the appropriate scales of hyperparameters including
random initialization, learning rates, and damping terms. Our approach covers
two major second-order optimization algorithms, K-FAC and Shampoo, and we
demonstrate that our parameterization achieves higher generalization
performance in feature learning. In particular, it enables us to transfer the
hyperparameters across models with different widths.
- Abstract(参考訳): 深層ニューラルネットワークのトレーニングを加速するために2次最適化が開発されており、より大規模なモデルにも適用されている。
本研究では,より広いスケールでのトレーニングに向けて,ネットワーク幅が大幅に増加する場合でも,機能学習を安定的に促進する2次最適化のための特定のパラメータ化を同定する。
最大更新パラメータ化に触発されて,勾配を1段階更新し,ランダム初期化,学習率,減衰項を含むハイパーパラメータの適切なスケールを明らかにする。
提案手法では,K-FAC と Shampoo の2次最適化アルゴリズムについて検討し,パラメータ化が特徴学習における高次一般化性能を実現することを示す。
特に、異なる幅のモデル間でハイパーパラメータを転送することが可能です。
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Hybrid GRU-CNN Bilinear Parameters Initialization for Quantum
Approximate Optimization Algorithm [7.502733639318316]
本稿では, Gated Recurrent Units (GRU), Conal Neural Networks (CNN), and a bilinear strategy as an innovative alternative to conventional approximation for predicting optimal parameters of QAOA circuits。
我々は、GRU-CNN最適化から得られた参照パラメータを用いて、より深い深さでQAOA回路パラメータに初期化するための双線形戦略を用いる。
論文 参考訳(メタデータ) (2023-11-14T03:00:39Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [63.99489591661645]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Improving Multi-fidelity Optimization with a Recurring Learning Rate for
Hyperparameter Tuning [7.591442522626255]
再帰学習率(MORL)を考慮した多相最適化を提案する。
MORLはCNNの最適化プロセスを多要素最適化に組み込んでいる。
スロースタートの問題を緩和し、より正確な低忠実度近似を実現する。
論文 参考訳(メタデータ) (2022-09-26T08:16:31Z) - Towards Learning Universal Hyperparameter Optimizers with Transformers [57.35920571605559]
我々は,テキストベースのトランスフォーマーHPOフレームワークであるOptFormerを紹介した。
実験の結果,OptFormerは少なくとも7種類のHPOアルゴリズムを模倣できることがわかった。
論文 参考訳(メタデータ) (2022-05-26T12:51:32Z) - Meta-Learning to Improve Pre-Training [38.75981465367226]
プレトレーニング(PT)とファインチューニング(FT)は、ニューラルネットワークのトレーニングに有効な方法である。
PTは、タスクとデータ再重み付け戦略、拡張ポリシー、ノイズモデルなど、さまざまな設計選択を組み込むことができる。
メタ学習型PTハイパーパラメータに対する効率よく勾配に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-02T17:26:50Z) - Automatic prior selection for meta Bayesian optimization with a case
study on tuning deep neural network optimizers [47.013395100497775]
このような高価なハイパーパラメータチューニング問題を効率的に解くための原理的アプローチを提案する。
BOの性能の鍵となるのは関数上の分布を指定および精製することであり、これは基礎となる関数の最適化を推論するために使われる。
我々は、一般的な画像やテキストデータセット上で、最先端に近いモデルの何万もの設定をトレーニングすることで、現実的なモデルトレーニング設定におけるアプローチを検証する。
論文 参考訳(メタデータ) (2021-09-16T20:46:26Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。