Fugu-MT 論文翻訳(概要): On the Parameterization of Second-Order Optimization Effective Towards the Infinite Width

論文の概要: On the Parameterization of Second-Order Optimization Effective Towards the Infinite Width

arxiv url: http://arxiv.org/abs/2312.12226v1
Date: Tue, 19 Dec 2023 15:12:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 15:15:48.552225
Title: On the Parameterization of Second-Order Optimization Effective Towards the Infinite Width
Title（参考訳）: 無限幅に対する二階最適化のパラメータ化について
Authors: Satoki Ishikawa and Ryo Karakida
Abstract要約: 特徴学習を安定的に促進する2次最適化のための特定のパラメータ化を同定する。最大更新パラメータ化にインスパイアされ、勾配の一段階更新を考える。提案手法では,K-FAC と Shampoo の2次最適化アルゴリズムについて述べる。
参考スコア（独自算出の注目度）: 6.164223149261533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Second-order optimization has been developed to accelerate the training of deep neural networks and it is being applied to increasingly larger-scale models. In this study, towards training on further larger scales, we identify a specific parameterization for second-order optimization that promotes feature learning in a stable manner even if the network width increases significantly. Inspired by a maximal update parameterization, we consider a one-step update of the gradient and reveal the appropriate scales of hyperparameters including random initialization, learning rates, and damping terms. Our approach covers two major second-order optimization algorithms, K-FAC and Shampoo, and we demonstrate that our parameterization achieves higher generalization performance in feature learning. In particular, it enables us to transfer the hyperparameters across models with different widths.
Abstract（参考訳）: 深層ニューラルネットワークのトレーニングを加速するために2次最適化が開発されており、より大規模なモデルにも適用されている。本研究では,より広いスケールでのトレーニングに向けて,ネットワーク幅が大幅に増加する場合でも,機能学習を安定的に促進する2次最適化のための特定のパラメータ化を同定する。最大更新パラメータ化に触発されて,勾配を1段階更新し,ランダム初期化,学習率,減衰項を含むハイパーパラメータの適切なスケールを明らかにする。提案手法では,K-FAC と Shampoo の2次最適化アルゴリズムについて検討し,パラメータ化が特徴学習における高次一般化性能を実現することを示す。特に、異なる幅のモデル間でハイパーパラメータを転送することが可能です。

関連論文リスト

Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文参考訳（メタデータ） (2025-06-23T15:20:58Z)
LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文参考訳（メタデータ） (2025-05-22T16:22:54Z)
Scalable Differentially Private Bayesian Optimization [17.28046301424826]
勾配インフォーマティブベイズ最適化を用いて,潜在的に高次元なパラメータ空間をプライベートに推定する手法を開発した。理論的には, 最適条件下では, 最適パラメータ構成の周囲の球に指数関数的に収束する。仮定が満たされているかどうかに関わらず、我々のアルゴリズムはプライバシを維持し、既存の手法よりも優れた性能を実証的に示すことを示す。
論文参考訳（メタデータ） (2025-02-09T21:49:50Z)
Deep Linear Network Training Dynamics from Random Initialization: Data, Width, Depth, and Hyperparameter Transfer [40.40780546513363]
我々は,枝を1/sqrttextdepth$にスケールした場合に無限の深さ制限を可能にする非残留ニューラルネットワークと残留ニューラルネットワークの両方について記述する。本モデルでは, 電力法構造データに対する高速化された電力法則トレーニングのダイナミクスを, 最近の研究で観測されたリッチな状態下で回復することを示す。
論文参考訳（メタデータ） (2025-02-04T17:50:55Z)
Cross-Entropy Optimization for Hyperparameter Optimization in Stochastic Gradient-based Approaches to Train Deep Neural Networks [2.1046873879077794]
学習アルゴリズムのハイパーパラメータ最適化のためのクロスエントロピー最適化法を提案する。提案手法は,ディープラーニングにおける他の最適化問題にも適用可能である。
論文参考訳（メタデータ） (2024-09-14T00:39:37Z)
Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-09-07T09:37:19Z)
Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文参考訳（メタデータ） (2024-07-08T12:32:51Z)
Memory-Efficient Optimization with Factorized Hamiltonian Descent [11.01832755213396]
本稿では,この課題に対処するためのメモリ効率因子化手法を取り入れた新しい適応型H-Facを提案する。運動量とスケーリングパラメータ推定器の両方にランク1パラメータ化を適用することで、H-Facはメモリコストをサブ線形レベルに削減する。我々はハミルトン力学から導かれる原理に基づいてアルゴリズムを開発し、最適化力学と収束保証において堅牢な理論的基盤を提供する。
論文参考訳（メタデータ） (2024-06-14T12:05:17Z)
Trajectory-Based Multi-Objective Hyperparameter Optimization for Model Retraining [8.598456741786801]
本稿では,新しいトラジェクトリベース多目的ベイズ最適化アルゴリズムを提案する。我々のアルゴリズムは、より優れたトレードオフとチューニング効率の両面において、最先端のマルチオブジェクトよりも優れています。
論文参考訳（メタデータ） (2024-05-24T07:43:45Z)
Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文参考訳（メタデータ） (2024-02-27T11:52:49Z)
Improving Multi-fidelity Optimization with a Recurring Learning Rate for Hyperparameter Tuning [7.591442522626255]
再帰学習率(MORL)を考慮した多相最適化を提案する。 MORLはCNNの最適化プロセスを多要素最適化に組み込んでいる。スロースタートの問題を緩和し、より正確な低忠実度近似を実現する。
論文参考訳（メタデータ） (2022-09-26T08:16:31Z)
Meta-Learning to Improve Pre-Training [38.75981465367226]
プレトレーニング(PT)とファインチューニング(FT)は、ニューラルネットワークのトレーニングに有効な方法である。 PTは、タスクとデータ再重み付け戦略、拡張ポリシー、ノイズモデルなど、さまざまな設計選択を組み込むことができる。メタ学習型PTハイパーパラメータに対する効率よく勾配に基づくアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-11-02T17:26:50Z)
Optimizing Large-Scale Hyperparameters via Automated Learning Algorithm [97.66038345864095]
ゼロ階超勾配(HOZOG)を用いた新しいハイパーパラメータ最適化法を提案する。具体的には、A型制約最適化問題として、まずハイパーパラメータ最適化を定式化する。次に、平均ゼロ階超勾配を用いてハイパーパラメータを更新する。
論文参考訳（メタデータ） (2021-02-17T21:03:05Z)
Online hyperparameter optimization by real-time recurrent learning [57.01871583756586]
ニューラルネットワーク(rnn)におけるハイパーパラメータ最適化とパラメータ学習の類似性を活用した。 RNNのための学習済みのオンライン学習アルゴリズムのファミリーを適応させ、ハイパーパラメータとネットワークパラメータを同時に調整します。この手順は、通常の方法に比べて、ウォールクロック時間のほんの少しで、体系的に一般化性能が向上する。
論文参考訳（メタデータ） (2021-02-15T19:36:18Z)
Self-Tuning Stochastic Optimization with Curvature-Aware Gradient Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。モデルに基づく手続きが雑音勾配設定に収束することを証明する。これは自己チューニング二次体を構築するための興味深いステップである。
論文参考訳（メタデータ） (2020-11-09T22:07:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。