論文の概要: Absence of Closed-Form Descriptions for Gradient Flow in Two-Layer Narrow Networks
- arxiv url: http://arxiv.org/abs/2408.08286v1
- Date: Thu, 15 Aug 2024 17:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:05:43.303715
- Title: Absence of Closed-Form Descriptions for Gradient Flow in Two-Layer Narrow Networks
- Title(参考訳): 2層狭帯域における勾配流れの閉形式記述の欠如
- Authors: Yeachan Park,
- Abstract要約: 2層狭帯域ネットワークにおける勾配流の力学は可積分系ではないことを示す。
穏やかな条件下では、勾配流の変分方程式の微分ガロア群の恒等成分は解けない。
この結果はシステムの非可積分性を確認し、トレーニング力学がリウヴィリア函数で表現できないことを示唆している。
- 参考スコア(独自算出の注目度): 0.8158530638728501
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the field of machine learning, comprehending the intricate training dynamics of neural networks poses a significant challenge. This paper explores the training dynamics of neural networks, particularly whether these dynamics can be expressed in a general closed-form solution. We demonstrate that the dynamics of the gradient flow in two-layer narrow networks is not an integrable system. Integrable systems are characterized by trajectories confined to submanifolds defined by level sets of first integrals (invariants), facilitating predictable and reducible dynamics. In contrast, non-integrable systems exhibit complex behaviors that are difficult to predict. To establish the non-integrability, we employ differential Galois theory, which focuses on the solvability of linear differential equations. We demonstrate that under mild conditions, the identity component of the differential Galois group of the variational equations of the gradient flow is non-solvable. This result confirms the system's non-integrability and implies that the training dynamics cannot be represented by Liouvillian functions, precluding a closed-form solution for describing these dynamics. Our findings highlight the necessity of employing numerical methods to tackle optimization problems within neural networks. The results contribute to a deeper understanding of neural network training dynamics and their implications for machine learning optimization strategies.
- Abstract(参考訳): 機械学習の分野では、ニューラルネットワークの複雑なトレーニングダイナミクスを理解することが大きな課題となっている。
本稿では,ニューラルネットワークのトレーニング力学,特に一般閉形式解でこれらの力学が表現できるかどうかを考察する。
2層狭帯域ネットワークにおける勾配流の力学は可積分系ではないことを実証する。
可積分系は、第一積分(不変量)のレベル集合によって定義される部分多様体に限られる軌道によって特徴づけられる。
対照的に、非可積分系は予測が難しい複雑な振る舞いを示す。
非可積分性を確立するために、線形微分方程式の可解性に焦点を当てた微分ガロア理論を用いる。
穏やかな条件下では、勾配流の変分方程式の微分ガロア群の恒等成分は解けないことを実証する。
この結果はシステムの非可積分性を確認し、これらの力学を記述する閉形式解を前もって、トレーニング力学はリウヴィリア函数で表現できないことを示唆する。
本研究は,ニューラルネットワークにおける最適化問題に対処するために,数値的手法を用いることの必要性を強調した。
この結果は、ニューラルネットワークのトレーニングダイナミクスの深い理解と、機械学習最適化戦略へのその影響に寄与する。
関連論文リスト
- Dynamical stability and chaos in artificial neural network trajectories along training [3.379574469735166]
浅いニューラルネットワークのネットワーク軌跡をこのレンズを通して解析することにより,このプロセスの動的特性について検討する。
我々は,学習率の仕組みによって,規則的かつカオス的な行動のヒントを見いだす。
この研究は、力学系理論、ネットワーク理論、機械学習のアイデアの交叉受精にも貢献している。
論文 参考訳(メタデータ) (2024-04-08T17:33:11Z) - On the Dynamics Under the Unhinged Loss and Beyond [104.49565602940699]
我々は、閉形式力学を解析するための数学的機会を提供する、簡潔な損失関数であるアンヒンジド・ロスを導入する。
アンヒンジされた損失は、時間変化学習率や特徴正規化など、より実践的なテクニックを検討することができる。
論文 参考訳(メタデータ) (2023-12-13T02:11:07Z) - Understanding Multi-phase Optimization Dynamics and Rich Nonlinear
Behaviors of ReLU Networks [8.180184504355571]
線形可分データに基づく勾配流による2層ReLUネットワークの学習過程の理論的評価を行う。
学習過程全体から4つの段階が明らかになり,学習の簡略化と複雑化の傾向が示された。
特定の非線形挙動は、初期、サドルプラトー力学、凝縮エスケープ、複雑化に伴う活性化パターンの変化など、理論的に正確に識別することもできる。
論文 参考訳(メタデータ) (2023-05-21T14:08:34Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Neural Galerkin Schemes with Active Learning for High-Dimensional
Evolution Equations [44.89798007370551]
本研究では,高次元偏微分方程式を数値的に解くために,能動的学習を用いた学習データを生成するディープラーニングに基づくニューラル・ガレルキンスキームを提案する。
ニューラル・ガレルキンスキームはディラック・フランケル変分法に基づいて、残余を時間とともに最小化することで、ネットワークを訓練する。
提案したニューラル・ガレルキン・スキームの学習データ収集は,高次元におけるネットワークの表現力を数値的に実現するための鍵となる。
論文 参考訳(メタデータ) (2022-03-02T19:09:52Z) - Decimation technique for open quantum systems: a case study with
driven-dissipative bosonic chains [62.997667081978825]
量子系の外部自由度への不可避結合は、散逸(非単体)ダイナミクスをもたらす。
本稿では,グリーン関数の(散逸的な)格子計算に基づいて,これらのシステムに対処する手法を提案する。
本手法のパワーを,複雑性を増大させる駆動散逸型ボゾン鎖のいくつかの例で説明する。
論文 参考訳(メタデータ) (2022-02-15T19:00:09Z) - Physics informed neural networks for continuum micromechanics [68.8204255655161]
近年,応用数学や工学における多種多様な問題に対して,物理情報ニューラルネットワークの適用が成功している。
グローバルな近似のため、物理情報ニューラルネットワークは、最適化によって局所的な効果と強い非線形解を表示するのに困難である。
実世界の$mu$CT-Scansから得られた不均一構造における非線形応力, 変位, エネルギー場を, 正確に解くことができる。
論文 参考訳(メタデータ) (2021-10-14T14:05:19Z) - Locally-symplectic neural networks for learning volume-preserving
dynamics [0.0]
音量保存力学を学習するための局所シンプレクティックニューラルネットワーク LocSympNets を提案する。
LocSympNets の構成は、体積保存力学系のベクトル場の局所ハミルトン記述の定理に由来する。
論文 参考訳(メタデータ) (2021-09-19T15:58:09Z) - Gradient Starvation: A Learning Proclivity in Neural Networks [97.02382916372594]
グラディエント・スターベーションは、タスクに関連する機能のサブセットのみをキャプチャすることで、クロスエントロピー損失を最小化するときに発生する。
この研究は、ニューラルネットワークにおけるそのような特徴不均衡の出現に関する理論的説明を提供する。
論文 参考訳(メタデータ) (2020-11-18T18:52:08Z) - Continuous-in-Depth Neural Networks [107.47887213490134]
まず最初に、このリッチな意味では、ResNetsは意味のある動的でないことを示します。
次に、ニューラルネットワークモデルが連続力学系を表現することを実証する。
ResNetアーキテクチャの詳細な一般化としてContinuousNetを紹介します。
論文 参考訳(メタデータ) (2020-08-05T22:54:09Z) - Implicit Bias of Gradient Descent for Wide Two-layer Neural Networks
Trained with the Logistic Loss [0.0]
勾配に基づく手法によるロジスティック(クロスエントロピー)損失を最小限に抑えるために訓練されたニューラルネットワークは、多くの教師付き分類タスクでうまく機能する。
我々は、均一な活性化を伴う無限に広い2層ニューラルネットワークのトレーニングと一般化の挙動を解析する。
論文 参考訳(メタデータ) (2020-02-11T15:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。