論文の概要: Abide by the Law and Follow the Flow: Conservation Laws for Gradient
Flows
- arxiv url: http://arxiv.org/abs/2307.00144v1
- Date: Fri, 30 Jun 2023 21:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:54:03.542888
- Title: Abide by the Law and Follow the Flow: Conservation Laws for Gradient
Flows
- Title(参考訳): 法を遵守し, 流れを追従する: 勾配流の保存法則
- Authors: Sibylle Marcotte, R\'emi Gribonval, Gabriel Peyr\'e
- Abstract要約: 単純なバイアス」は、訓練されたモデルの好ましい性質に責任があると考えられている。
保存法則 (Conservation law) とは、与えられたモデルのフロー中に保存される独立量の最大集合である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the geometric properties of gradient descent dynamics is a key
ingredient in deciphering the recent success of very large machine learning
models. A striking observation is that trained over-parameterized models retain
some properties of the optimization initialization. This "implicit bias" is
believed to be responsible for some favorable properties of the trained models
and could explain their good generalization properties. The purpose of this
article is threefold. First, we rigorously expose the definition and basic
properties of "conservation laws", which are maximal sets of independent
quantities conserved during gradient flows of a given model (e.g. of a ReLU
network with a given architecture) with any training data and any loss. Then we
explain how to find the exact number of these quantities by performing
finite-dimensional algebraic manipulations on the Lie algebra generated by the
Jacobian of the model. Finally, we provide algorithms (implemented in SageMath)
to: a) compute a family of polynomial laws; b) compute the number of (not
necessarily polynomial) conservation laws. We provide showcase examples that we
fully work out theoretically. Besides, applying the two algorithms confirms for
a number of ReLU network architectures that all known laws are recovered by the
algorithm, and that there are no other laws. Such computational tools pave the
way to understanding desirable properties of optimization initialization in
large machine learning models.
- Abstract(参考訳): 勾配勾配勾配ダイナミクスの幾何学的性質を理解することは、最近の大規模機械学習モデルの成功を解読する鍵となる要素である。
顕著な観察は、訓練された過パラメータ化モデルが最適化初期化のいくつかの特性を保持することである。
この「単純バイアス」は、訓練されたモデルの好ましい性質に責任があり、それらの良い一般化特性を説明することができると信じられている。
この記事の目的は3つある。
まず、与えられたモデルの勾配流れ(例えば、所定のアーキテクチャを持つreluネットワーク)において保存される独立量の最大集合である「保存則」の定義と基本的な性質を、トレーニングデータと損失を伴って厳密に公開する。
次に、モデルのヤコビアンによって生成されるリー代数上で有限次元代数的操作を行うことにより、これらの量の正確な数を見つける方法を説明する。
最後に、アルゴリズム(SageMathで実装)を次のように提供します。
a) 多項式法則の族を計算すること。
b) 保存法則の数(必ずしも多項式ではない)を計算すること。
理論的に完全に検討した例を紹介します。
さらに、この2つのアルゴリズムを適用することで、既知のすべての法則がアルゴリズムによって回復され、他の法則が存在しないことを確認する。
このような計算ツールは、大規模機械学習モデルにおける最適化初期化の望ましい特性を理解するための道を開いた。
関連論文リスト
- Scaling and renormalization in high-dimensional regression [70.9098740785845]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - Towards Constituting Mathematical Structures for Learning to Optimize [101.80359461134087]
近年,機械学習を利用してデータから最適化アルゴリズムを自動学習する技術が注目されている。
ジェネリックL2Oアプローチは反復更新ルールをパラメータ化し、ブラックボックスネットワークとして更新方向を学ぶ。
一般的なアプローチは広く適用できるが、学習されたモデルは過度に適合し、配布外テストセットにうまく一般化できない。
本稿では, 分布外問題に対して広く適用でき, 一般化された, 数学に着想を得た構造を持つ新しいL2Oモデルを提案する。
論文 参考訳(メタデータ) (2023-05-29T19:37:28Z) - Exponential Hardness of Reinforcement Learning with Linear Function
Approximation [20.066210529358177]
指数時間仮説に基づく線形強化学習において,特徴・地平線で指数関数的な計算下界を示す。
また、地平線依存に最適化された下界が$exp(sqrtH)$の最もよく知られた上界とほぼ一致することを示す。
論文 参考訳(メタデータ) (2023-02-25T00:19:49Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - A framework for overparameterized learning [0.0]
ディープニューラルネットワークの成功に関する説明は、理論的機械学習における中心的な問題である。
本稿では,多くの一般的な問題をカバーするのに十分な,プロトタイプ学習問題からなるフレームワークを提案する。
次に、教師付き学習、変分オートエンコーダ、勾配ペナルティによるトレーニングがプロトタイプ問題に変換可能であることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:17:46Z) - Orchestrated Value Mapping for Reinforcement Learning [15.000818334408805]
本稿では2つの異なる原理に基づく強化学習アルゴリズムのクラスを示す。
最初の原則は、学習を強化するための価値推定器に特定のプロパティを組み込むことを可能にする。
2つ目の原則は、値関数を複数のユーティリティ関数の合成として表すことを可能にする。
論文 参考訳(メタデータ) (2022-03-14T15:13:44Z) - Generalized Bayesian Additive Regression Trees Models: Beyond
Conditional Conjugacy [2.969705152497174]
本稿では,BARTの適用範囲を任意の一般化BARTモデルに拡大する。
我々のアルゴリズムは、ユーザがその勾配とフィッシャー情報を(任意に)計算できることのみを要求する。
我々は生存分析、構造化ヘテロスケダスティック回帰、ガンマ形状回帰の例を考察する。
論文 参考訳(メタデータ) (2022-02-20T22:52:07Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Screening for Sparse Online Learning [11.523471275501855]
スパーシティ促進レギュラライザーは、低複素構造(例えば)を課すために広く使用されている。
l1-norm for sparsity) 教師付き学習の回帰係数に対する。
ほとんどのオンラインアルゴリズムは、ステップサイズと非消去の分散のためにプロパティを持っていません。
本稿では,オンラインアルゴリズムが生成するイテレートの不要な特徴を解消する方法を示し,有限なアクティビティ同定を強制する。
論文 参考訳(メタデータ) (2021-01-18T10:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。