論文の概要: Old Optimizer, New Norm: An Anthology
- arxiv url: http://arxiv.org/abs/2409.20325v1
- Date: Mon, 30 Sep 2024 14:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-01 22:52:59.218760
- Title: Old Optimizer, New Norm: An Anthology
- Title(参考訳): Old Optimizer, New Norm: Anthology
- Authors: Jeremy Bernstein, Laker Newhouse,
- Abstract要約: それぞれの手法は、凸性の仮定を伴わない正方形の一階法として理解することができると論じる。
この観察を一般化することにより、トレーニングアルゴリズムのための新しいデザインスペースをグラフ化する。
ニューラルネットワークを慎重に成熟させるというこのアイデアが、より安定し、スケーラブルで、実際に高速なトレーニングにつながることを期待しています。
- 参考スコア(独自算出の注目度): 3.471637998699967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning optimizers are often motivated through a mix of convex and approximate second-order theory. We select three such methods -- Adam, Shampoo and Prodigy -- and argue that each method can instead be understood as a squarely first-order method without convexity assumptions. In fact, after switching off exponential moving averages, each method is equivalent to steepest descent under a particular norm. By generalizing this observation, we chart a new design space for training algorithms. Different operator norms should be assigned to different tensors based on the role that the tensor plays within the network. For example, while linear and embedding layers may have the same weight space of $\mathbb{R}^{m\times n}$, these layers play different roles and should be assigned different norms. We hope that this idea of carefully metrizing the neural architecture might lead to more stable, scalable and indeed faster training.
- Abstract(参考訳): ディープラーニングオプティマイザは、しばしば凸と近似二階理論の混合によって動機付けられる。
我々はAdam, Shampoo, Prodigyの3つの方法を選択し、それぞれの手法は凸性の仮定なしに正方形の一階法として理解できると主張している。
実際、指数移動平均をオフにすると、それぞれの方法は特定のノルムの下で最も急降下する。
この観察を一般化することにより、トレーニングアルゴリズムのための新しいデザインスペースをグラフ化する。
異なる作用素ノルムは、テンソルがネットワーク内で果たす役割に基づいて異なるテンソルに割り当てられるべきである。
例えば、線型層と埋め込み層は$\mathbb{R}^{m\times n}$と同じ重み空間を持つが、これらの層は異なる役割を演じ、異なるノルムを割り当てるべきである。
ニューラルネットワークを慎重に成熟させるというこのアイデアが、より安定し、スケーラブルで、実際に高速なトレーニングにつながることを期待しています。
関連論文リスト
- Sparser, Better, Deeper, Stronger: Improving Sparse Training with Exact Orthogonal Initialization [49.06421851486415]
静的スパーストレーニングは、スパースモデルをスクラッチからトレーニングすることを目的としており、近年顕著な成果を上げている。
ランダムなアジェンダ回転に基づく新しいスパースな直交初期化スキームであるExact Orthogonal Initialization (EOI)を提案する。
本手法は,残差接続や正規化を伴わずに,1000層ネットワークとCNNネットワークを疎結合に訓練することができる。
論文 参考訳(メタデータ) (2024-06-03T19:44:47Z) - Adapting Newton's Method to Neural Networks through a Summary of
Higher-Order Derivatives [0.0]
関数 $boldsymboltheta$ に適用した勾配に基づく最適化法を考える。
このフレームワークは、勾配降下によるニューラルネットワークのトレーニングなど、多くの一般的なユースケースを含んでいる。
論文 参考訳(メタデータ) (2023-12-06T20:24:05Z) - Online Learning for the Random Feature Model in the Student-Teacher
Framework [0.0]
学生-教師の枠組みの文脈における過度なパラメトリゼーションについて検討する。
隠蔽層の大きさと入力次元の有限比に対して、学生は完全に一般化することはできない。
学生の隠蔽層の大きさが入力次元よりも指数関数的に大きい場合のみ、完全な一般化へのアプローチが可能である。
論文 参考訳(メタデータ) (2023-03-24T15:49:02Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Universally Rank Consistent Ordinal Regression in Neural Networks [4.462334751640166]
最近の手法では、順序回帰を一連の拡張二分分類サブタスクに変換する方法が採用されている。
ここでは、サブタスク確率がマルコフ連鎖を形成することを示す。
我々は、ニューラルネットワークアーキテクチャを簡単に修正してこの事実を活用する方法を示し、それによって予測を普遍的に一貫したランクに制限する。
論文 参考訳(メタデータ) (2021-10-14T15:44:08Z) - Understanding the Generalization of Adam in Learning Neural Networks
with Proper Regularization [118.50301177912381]
我々は,重力減衰グローバリゼーションにおいても,目的の異なる解に確実に異なる誤差で収束できることを示す。
凸と重み減衰正則化を用いると、Adamを含む任意の最適化アルゴリズムは同じ解に収束することを示す。
論文 参考訳(メタデータ) (2021-08-25T17:58:21Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Beyond Lazy Training for Over-parameterized Tensor Decomposition [69.4699995828506]
過度なパラメータ化対象の勾配勾配は遅延学習体制を超え、データ中の特定の低ランク構造を利用する可能性があることを示す。
以上の結果から,過パラメータ化対象の勾配勾配は遅延学習体制を超え,データ中の特定の低ランク構造を利用する可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-22T00:32:12Z) - Backward Feature Correction: How Deep Learning Performs Deep
(Hierarchical) Learning [66.05472746340142]
本稿では,SGD による階層的学習 _efficiently_ と _automatically_ を学習目標として,多層ニューラルネットワークがどのように行うかを分析する。
我々は、下位機能のエラーを上位層と共にトレーニングする際に自動的に修正できる"後方特徴補正"と呼ばれる新しい原則を確立する。
論文 参考訳(メタデータ) (2020-01-13T17:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。