論文の概要: Scalable Optimization in the Modular Norm
- arxiv url: http://arxiv.org/abs/2405.14813v1
- Date: Thu, 23 May 2024 17:23:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:37:09.735262
- Title: Scalable Optimization in the Modular Norm
- Title(参考訳): モジュラノームにおけるスケーラブルな最適化
- Authors: Tim Large, Yang Liu, Minyoung Huh, Hyojin Bahng, Phillip Isola, Jeremy Bernstein,
- Abstract要約: 我々は、任意のニューラルネットワークアーキテクチャのフルウェイト空間における自然なノルムであるモジュラーノルムを定義する。
実用面では、モジュラーノルムを用いて任意のベースのアップデートを正規化し、学習率が幅と深さで転送可能となるようにすることができる。
の原子モジュールから構築された任意のニューラルネットワークに対して、ネットワークの勾配はモジュラーノルムにおいてリプシッツ連続であることを示す。
- 参考スコア(独自算出の注目度): 32.486978201822495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve performance in contemporary deep learning, one is interested in scaling up the neural network in terms of both the number and the size of the layers. When ramping up the width of a single layer, graceful scaling of training has been linked to the need to normalize the weights and their updates in the "natural norm" particular to that layer. In this paper, we significantly generalize this idea by defining the modular norm, which is the natural norm on the full weight space of any neural network architecture. The modular norm is defined recursively in tandem with the network architecture itself. We show that the modular norm has several promising applications. On the practical side, the modular norm can be used to normalize the updates of any base optimizer so that the learning rate becomes transferable across width and depth. This means that the user does not need to compute optimizer-specific scale factors in order to scale training. On the theoretical side, we show that for any neural network built from "well-behaved" atomic modules, the gradient of the network is Lipschitz-continuous in the modular norm, with the Lipschitz constant admitting a simple recursive formula. This characterization opens the door to porting standard ideas in optimization theory over to deep learning. We have created a Python package called Modula that automatically normalizes weight updates in the modular norm of the architecture. The package is available via "pip install modula" with source code at https://github.com/jxbz/modula.
- Abstract(参考訳): 現代のディープラーニングのパフォーマンス向上のために、レイヤの数とサイズの両方の観点から、ニューラルネットワークのスケールアップに関心がある。
単一のレイヤの幅を拡大する際、トレーニングの優雅なスケーリングは、そのレイヤに特有の"自然な基準"でウェイトと更新を標準化する必要性と関連付けられています。
本稿では,任意のニューラルネットワークアーキテクチャの全重み空間の自然なノルムであるモジュラーノルムを定義することにより,このアイデアを著しく一般化する。
モジュラーノルムは、ネットワークアーキテクチャ自体と直交して再帰的に定義される。
モジュラーノルムにはいくつかの有望な応用があることが示される。
実用面では、任意のベースオプティマイザの更新を正規化して、学習率が幅と深さで転送可能であるようにするためにモジュラーノルムを用いることができる。
これは、トレーニングをスケールするために、ユーザーがオプティマイザ固有のスケールファクタを計算する必要がないことを意味する。
理論的な側面から、"十分に計算された"原子モジュールから構築された任意のニューラルネットワークに対して、ネットワークの勾配はモジュラーノルムにおいてリプシッツ連続であり、リプシッツ定数は単純な再帰公式を許容する。
この特徴は、最適化理論の標準アイデアをディープラーニングに移植する扉を開く。
我々はModulaと呼ばれるPythonパッケージを作成し、アーキテクチャのモジュラー標準で自動的に重み更新を正規化しました。
パッケージは"pip install modula"を通じて入手でき、ソースコードはhttps://github.com/jxbz/modulaにある。
関連論文リスト
- Breaking Neural Network Scaling Laws with Modularity [8.482423139660153]
一般化に必要なトレーニングデータの量は、タスクの入力の内在的な次元によってどのように異なるかを示す。
そして、この利点を活かすために、モジュールネットワークのための新しい学習ルールを開発します。
論文 参考訳(メタデータ) (2024-09-09T16:43:09Z) - Train Faster, Perform Better: Modular Adaptive Training in Over-Parameterized Models [31.960749305728488]
モジュラーニューラルタンジェントカーネル(mNTK)と呼ばれる新しい概念を導入する。
モジュールの学習の質が mNTK の主固有値 $lambda_max$ と密接に関連していることを示す。
動的しきい値を超えたlambda_max$でこれらのモジュールを更新するための,MAT(Modular Adaptive Training)と呼ばれる新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-13T07:46:48Z) - ModuleFormer: Modularity Emerges from Mixture-of-Experts [60.6148988099284]
本稿では,大規模言語モデルの効率性と柔軟性を向上させるために,新しいニューラルネットワークアーキテクチャであるModuleFormerを提案する。
以前のSMoEベースのモジュラー言語モデルとは異なり、ModuleFormerは未処理のデータからモジュラリティを誘導することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:57Z) - normflows: A PyTorch Package for Normalizing Flows [7.450471038139951]
フローを正規化するためのPythonパッケージである normflows を提示する。
ベースディストリビューション、フロー層、ニューラルネットワークのスイートから正規化フローモデルを構築することができる。
パッケージはip経由で簡単にインストールでき、コードはGitHubで公開されている。
論文 参考訳(メタデータ) (2023-01-26T14:58:37Z) - Robustness modularity in complex networks [1.749935196721634]
本稿では,ロバストネスの概念に基づく新しい尺度を提案する。
ロバスト性モジュラリティは、ネットワークの構造がランダムに摂動しているときに、自明な分割を見つける確率である。
人工グラフと実グラフの試験により、異なるネットワークのコミュニティ構造の強度を評価し比較するために、ロバスト性モジュラリティが利用できることが明らかになった。
論文 参考訳(メタデータ) (2021-10-05T19:00:45Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Neural Function Modules with Sparse Arguments: A Dynamic Approach to
Integrating Information across Layers [84.57980167400513]
Neural Function Modules (NFM)は、ディープラーニングに同じ構造機能を導入することを目的としている。
トップダウンとボトムアップのフィードバックを組み合わせたフィードフォワードネットワークのコンテキストにおける作業のほとんどは、分類の問題に限られている。
私たちの仕事の重要な貢献は、フレキシブルなアルゴリズムで注意、疎結合、トップダウン、ボトムアップのフィードバックを組み合わせることです。
論文 参考訳(メタデータ) (2020-10-15T20:43:17Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - On Lipschitz Regularization of Convolutional Layers using Toeplitz
Matrix Theory [77.18089185140767]
リプシッツ正則性は現代のディープラーニングの重要な性質として確立されている。
ニューラルネットワークのリプシッツ定数の正確な値を計算することはNPハードであることが知られている。
より厳密で計算が容易な畳み込み層に対する新しい上限を導入する。
論文 参考訳(メタデータ) (2020-06-15T13:23:34Z) - Pruned Neural Networks are Surprisingly Modular [9.184659875364689]
多層パーセプトロンに対するモジュラリティの測定可能な概念を導入する。
小型画像のデータセットに基づいて学習したニューラルネットワークのモジュラ構造について検討する。
論文 参考訳(メタデータ) (2020-03-10T17:51:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。