論文の概要: The Hamilton-Jacobi Theory of Deep Learning
- arxiv url: http://arxiv.org/abs/2605.28983v1
- Date: Wed, 27 May 2026 18:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.232982
- Title: The Hamilton-Jacobi Theory of Deep Learning
- Title(参考訳): ハミルトン・ヤコビの深層学習理論
- Authors: Jose Marie Antonio Miñoza, Erika Fille T. Legara, Christopher P. Monterola,
- Abstract要約: ニューラルネットワークのトレーニングは、正確にはハミルトン-ヤコビ初期値問題による探索として識別される。
対応はlog-sum-exp層と、より広いアーキテクチャの構造に正確である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, training a neural network is identified, exactly, as a search through Hamilton--Jacobi initial-value problems: each gradient step selects the initial data of a viscous Hamilton--Jacobi equation whose Hopf--Cole propagator best fits the observations; at inference, the input is the spatial point at which that solution is evaluated and the initial condition is already encoded in the weights. The correspondence is exact for log-sum-exp layers and structural for broader architectures: residual networks, transformers, and recurrent architectures (RNNs, LSTMs, SSMs) each discretize the same class of Hamilton--Jacobi equations, with architecture-dependent Hamiltonian and viscosity. A single deformation parameter $\varepsilon$ unifies all four perspectives (network, tropical algebra, viscous PDE, convex optimization) in a commutative diagram closed under Lipschitz conditions. Quantitative consequences include: the minimax optimal generalization rate $O(n^{-1/(d+2)})$ for fixed $t$; adversarial robustness controlled by $\varepsilon$; backpropagation as the co-state equation of the Hamiltonian system for residual networks (Pontryagin Maximum Principle); scaling exponents consistent with data intrinsic dimension via PDE quadrature; and a closed-form $O(N)$ influence function (softmax attribution weights $π_j$) whose entropy landscape undergoes fold bifurcations as $\varepsilon$ increases, each merging attribution basins.
- Abstract(参考訳): それぞれの勾配ステップは、ホップ-コールプロパゲータが観測に最も適している粘性ハミルトン-ヤコビ方程式の初期データを選択する;推測すると、入力は、その解が評価され、初期条件が既に重みに符号化されている空間点である。
残差ネットワーク、トランスフォーマー、繰り返しアーキテクチャ(RNN、LSTM、SSM)はそれぞれ、ハミルトン-ヤコビ方程式の同じクラスをアーキテクチャ依存のハミルトンおよび粘度で識別する。
単一の変形パラメータ $\varepsilon$ は、リプシッツ条件下で閉じた可換図形の4つの視点(ネットワーク、トロピカル代数、粘性PDE、凸最適化)を統一する。
定量的な結果として、minimaxの最適一般化レート$O(n^{-1/(d+2)})$ for fixed $t$、$\varepsilon$によって制御される逆正則ロバスト性、残留ネットワークに対するハミルトン系の共状態方程式としてのバックプロパゲーション(Pontryagin Maximum Principle)、PDEの四角形によるデータ固有次元に整合した指数のスケーリング、および$O(N)$影響関数(softmax attribution weights $π_j$)のエントロピー的景観が$\varepsilon$として折り畳み2重なり、各結合属性盆地が増加する。
関連論文リスト
- How Neural Reward Models Learn Features for Policy Optimization: A Single-Index Analysis [53.063298916923976]
r*(x) = *(langle *, xrangle)$ と $x sim N(0, I_d)$ でガウスの単一インデックスモデルでフィードバックを研究する。
まず、報酬重み付きサンプルから隠れた方向を*$で学習し、次に重み付きリッジ回帰により読み出し層に適合する2段階のニューラル報酬モデルを分析する。
論文 参考訳(メタデータ) (2026-05-23T22:00:38Z) - Intrinsic Wasserstein Rates for Score-Based Generative Models on Smooth Manifolds [61.14405512940818]
Scoreベースの生成モデルは高次元空間で訓練されていることを示す。
有限固有アンカーとガウス・ニュートンによる最も近い射影座標のReLU実装を用いる。
論文 参考訳(メタデータ) (2026-05-15T10:20:05Z) - An Information-Minimal Geometry for Qubit-Efficient Optimization [0.0]
量子ビット効率の最適化を幾何学的問題として再検討する。
局所一貫性問題は、Sherali-Adams level-2 polytope $mathrmSA(2)$とちょうど一致する。
論文 参考訳(メタデータ) (2025-11-11T15:38:57Z) - Expressive Power of Deep Networks on Manifolds: Simultaneous Approximation [2.815765641180636]
境界重みを持つ定数深度$mathrmReLUk-1$ネットワークは、ソボレフ空間内の任意の関数を近似することができることを示す。
また、必要なパラメータ数が対数係数に一致することを示すことで、我々の構成がほぼ最適であることを示す。
論文 参考訳(メタデータ) (2025-09-11T11:28:20Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Newton-CG based barrier-augmented Lagrangian method for general nonconvex conic optimization [53.044526424637866]
本稿では、2つの異なる対象の一般円錐最適化を最小化する近似二階定常点(SOSP)について検討する。
特に、近似SOSPを見つけるためのNewton-CGベースの拡張共役法を提案する。
論文 参考訳(メタデータ) (2023-01-10T20:43:29Z) - Spectral Analysis of Product Formulas for Quantum Simulation [0.0]
本研究では,大規模なシステムに対して,$epsilon$から$epsilon1/2$へのスケーリングにおいて,精度の高いエネルギー固有値を推定するために必要なトロッターステップサイズを改善することができることを示す。
結果は部分的にダイアバティックなプロセスに一般化され、このプロセスはスペクトルの残りの部分からギャップによって分離された狭いエネルギーバンドに留まる。
論文 参考訳(メタデータ) (2021-02-25T03:17:25Z) - Tightening the Dependence on Horizon in the Sample Complexity of
Q-Learning [59.71676469100807]
この研究は、同期Q-ラーニングのサンプルの複雑さを、任意の$0varepsilon 1$に対して$frac|mathcalS| (1-gamma)4varepsilon2$の順序に絞る。
計算やストレージを余分に必要とせずに、高速なq-learningにマッチするvanilla q-learningの有効性を明らかにした。
論文 参考訳(メタデータ) (2021-02-12T14:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。