論文の概要: Abide by the Law and Follow the Flow: Conservation Laws for Gradient Flows
- arxiv url: http://arxiv.org/abs/2307.00144v2
- Date: Wed, 10 Jul 2024 13:15:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 22:19:38.318805
- Title: Abide by the Law and Follow the Flow: Conservation Laws for Gradient Flows
- Title(参考訳): 法を遵守し, 流れを追従する: 勾配流の保存法則
- Authors: Sibylle Marcotte, Rémi Gribonval, Gabriel Peyré,
- Abstract要約: 保存則」は、与えられたモデルの勾配流中に保存される量を定義する。
単純なバイアス」は、訓練されたモデルの好ましい性質に責任があると考えられている。
独立保護法の最大数を求める方法を示す。
- 参考スコア(独自算出の注目度): 28.287184613608435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding the geometric properties of gradient descent dynamics is a key ingredient in deciphering the recent success of very large machine learning models. A striking observation is that trained over-parameterized models retain some properties of the optimization initialization. This "implicit bias" is believed to be responsible for some favorable properties of the trained models and could explain their good generalization properties. The purpose of this article is threefold. First, we rigorously expose the definition and basic properties of "conservation laws", that define quantities conserved during gradient flows of a given model (e.g. of a ReLU network with a given architecture) with any training data and any loss. Then we explain how to find the maximal number of independent conservation laws by performing finite-dimensional algebraic manipulations on the Lie algebra generated by the Jacobian of the model. Finally, we provide algorithms to: a) compute a family of polynomial laws; b) compute the maximal number of (not necessarily polynomial) independent conservation laws. We provide showcase examples that we fully work out theoretically. Besides, applying the two algorithms confirms for a number of ReLU network architectures that all known laws are recovered by the algorithm, and that there are no other independent laws. Such computational tools pave the way to understanding desirable properties of optimization initialization in large machine learning models.
- Abstract(参考訳): 勾配勾配勾配ダイナミクスの幾何学的性質を理解することは、最近の大規模機械学習モデルの成功を解読する鍵となる要素である。
顕著な観察は、訓練された過パラメータ化モデルが最適化初期化のいくつかの特性を保持することである。
この「単純バイアス」は、訓練されたモデルのいくつかの好ましい性質に責任があると考えられており、それらの優れた一般化特性を説明することができる。
この記事の目的は3つある。
まず、与えられたモデル(例えば、与えられたアーキテクチャを持つReLUネットワーク)の勾配流中に保存される量と、任意のトレーニングデータと損失を定義する「保存法則」の定義と基本特性を厳格に公開する。
次に、モデルのヤコビアンによって生成されるリー代数上の有限次元代数的操作を実行することにより、独立保存法則の最大数を求める方法について説明する。
最後に、アルゴリズムを提供する。
a) 多項式法則の族
b) 独立保存法則の最大数(必ずしも多項式ではない)を計算すること。
理論的に完全に動作するショーケースの例を紹介します。
さらに、この2つのアルゴリズムを適用することで、既知のすべての法則がアルゴリズムによって回復され、他の独立した法則が存在しないことを確認する。
このような計算ツールは、大規模な機械学習モデルにおいて最適化初期化の望ましい性質を理解するための道を開く。
関連論文リスト
- Gradient Estimation and Variance Reduction in Stochastic and Deterministic Models [0.0]
この論文は制約のない非線形最適化問題を考察している。
このような問題の解決を可能にする鍵となる量である勾配そのものに着目する。
決定論と要素の双方に関わる問題の勾配を計算するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T14:41:58Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Efficient and Generalizable Certified Unlearning: A Hessian-free Recollection Approach [8.875278412741695]
機械学習は、特定のデータを選択的に忘れることを可能にして、データ所有者の権利を忘れないように努力する。
我々は,ベクトル加算操作のみを必要とするため,ほぼ瞬時に未学習を実現するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-04-02T07:54:18Z) - Towards Optimal Learning of Language Models [124.65669486710992]
言語モデル(LM)の最適学習の理論を提案する。
我々は、最適学習過程における力学の性質を明らかにするために、学習法則という定理を導出した。
我々は、LMの最適学習が、LMのスケーリング法則における係数の改善に起因することを実証的に検証した。
論文 参考訳(メタデータ) (2024-02-27T18:52:19Z) - Covering Number of Real Algebraic Varieties and Beyond: Improved Bounds and Applications [8.438718130535296]
ユークリッド空間における集合の被覆数について上限を証明する。
ここでは、イムディン・コントによる最もよく知られた一般境界が改善されることが示される。
本稿では,3つの計算応用における結果のパワーについて説明する。
論文 参考訳(メタデータ) (2023-11-09T03:06:59Z) - CoLA: Exploiting Compositional Structure for Automatic and Efficient
Numerical Linear Algebra [62.37017125812101]
機械学習における大規模線形代数問題に対して, CoLA という, 単純だが汎用的なフレームワークを提案する。
線形演算子抽象と合成ディスパッチルールを組み合わせることで、CoLAはメモリと実行時の効率的な数値アルゴリズムを自動的に構築する。
偏微分方程式,ガウス過程,同変モデル構築,教師なし学習など,幅広い応用で有効性を示す。
論文 参考訳(メタデータ) (2023-09-06T14:59:38Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - A framework for overparameterized learning [0.0]
ディープニューラルネットワークの成功に関する説明は、理論的機械学習における中心的な問題である。
本稿では,多くの一般的な問題をカバーするのに十分な,プロトタイプ学習問題からなるフレームワークを提案する。
次に、教師付き学習、変分オートエンコーダ、勾配ペナルティによるトレーニングがプロトタイプ問題に変換可能であることを示す。
論文 参考訳(メタデータ) (2022-05-26T17:17:46Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Towards Lower Bounds on the Depth of ReLU Neural Networks [7.355977594790584]
より多くの層を追加することで、正確に表現可能な関数のクラスが厳密に増加するかどうかを考察する。
We settled an old conjecture about piecewise linear function by Wang and Sun (2005) in affirmative。
対数深度を持つ関数を表すのに必要なニューラルネットワークのサイズについて上限を述べる。
論文 参考訳(メタデータ) (2021-05-31T09:49:14Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。