論文の概要: On the Parameterization of Second-Order Optimization Effective Towards the Infinite Width
- arxiv url: http://arxiv.org/abs/2312.12226v2
- Date: Sat, 8 Jun 2024 08:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:18:44.213830
- Title: On the Parameterization of Second-Order Optimization Effective Towards the Infinite Width
- Title(参考訳): 無限幅に向けての2次最適化のパラメータ化について
- Authors: Satoki Ishikawa, Ryo Karakida,
- Abstract要約: 特徴学習を安定的に促進する2次最適化のための特定のパラメータ化を同定する。
最大更新パラメータ化にインスパイアされ、勾配の一段階更新を考える。
提案手法では,K-FAC と Shampoo の2次最適化アルゴリズムについて述べる。
- 参考スコア(独自算出の注目度): 5.217870815854702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order optimization has been developed to accelerate the training of deep neural networks and it is being applied to increasingly larger-scale models. In this study, towards training on further larger scales, we identify a specific parameterization for second-order optimization that promotes feature learning in a stable manner even if the network width increases significantly. Inspired by a maximal update parameterization, we consider a one-step update of the gradient and reveal the appropriate scales of hyperparameters including random initialization, learning rates, and damping terms. Our approach covers two major second-order optimization algorithms, K-FAC and Shampoo, and we demonstrate that our parameterization achieves higher generalization performance in feature learning. In particular, it enables us to transfer the hyperparameters across models with different widths.
- Abstract(参考訳): ディープニューラルネットワークのトレーニングを加速するために2次最適化が開発されており、より大規模なモデルにも適用されている。
本研究では, ネットワーク幅が大幅に増大しても, 特徴学習を安定的に促進する2次最適化のパラメータ化について検討する。
最大更新パラメータ化に着想を得て、勾配の一段階の更新を検討し、ランダム初期化、学習率、減衰項を含むハイパーパラメータの適切なスケールを明らかにする。
提案手法では,K-FAC と Shampoo の2次最適化アルゴリズムについて検討し,パラメータ化が特徴学習における高次一般化性能を実現することを示す。
特に、異なる幅のモデル間でハイパーパラメータを転送することができる。
関連論文リスト
- Cross-Entropy Optimization for Hyperparameter Optimization in Stochastic Gradient-based Approaches to Train Deep Neural Networks [2.1046873879077794]
学習アルゴリズムのハイパーパラメータ最適化のためのクロスエントロピー最適化法を提案する。
提案手法は,ディープラーニングにおける他の最適化問題にも適用可能である。
論文 参考訳(メタデータ) (2024-09-14T00:39:37Z) - Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。
運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。
我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-06-14T12:05:17Z) - Trajectory-Based Multi-Objective Hyperparameter Optimization for Model Retraining [8.598456741786801]
本稿では,新しいトラジェクトリベース多目的ベイズ最適化アルゴリズムを提案する。
我々のアルゴリズムは、より優れたトレードオフとチューニング効率の両面において、最先端のマルチオブジェクトよりも優れています。
論文 参考訳(メタデータ) (2024-05-24T07:43:45Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Improving Multi-fidelity Optimization with a Recurring Learning Rate for
Hyperparameter Tuning [7.591442522626255]
再帰学習率(MORL)を考慮した多相最適化を提案する。
MORLはCNNの最適化プロセスを多要素最適化に組み込んでいる。
スロースタートの問題を緩和し、より正確な低忠実度近似を実現する。
論文 参考訳(メタデータ) (2022-09-26T08:16:31Z) - Meta-Learning to Improve Pre-Training [38.75981465367226]
プレトレーニング(PT)とファインチューニング(FT)は、ニューラルネットワークのトレーニングに有効な方法である。
PTは、タスクとデータ再重み付け戦略、拡張ポリシー、ノイズモデルなど、さまざまな設計選択を組み込むことができる。
メタ学習型PTハイパーパラメータに対する効率よく勾配に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-11-02T17:26:50Z) - Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。
具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。
次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文 参考訳(メタデータ) (2021-02-17T21:03:05Z) - Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。
RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。
この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文 参考訳(メタデータ) (2021-02-15T19:36:18Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。