論文の概要: Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives
- arxiv url: http://arxiv.org/abs/2510.11987v1
- Date: Mon, 13 Oct 2025 22:29:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 21:19:14.966779
- Title: Nonlinear discretizations and Newton's method: characterizing stationary points of regression objectives
- Title(参考訳): 非線形離散化とニュートン法--回帰目標の定常点を特徴づける
- Authors: Conor Rowan,
- Abstract要約: 正確な曲率情報に依存すると、ニューラルネットワークのトレーニングが確実に失敗することを示す。
障害モードは、非線形離散化の幾何学と損失ランドスケープにおける定常点の分布の両方について洞察を与える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Second-order methods are emerging as promising alternatives to standard first-order optimizers such as gradient descent and ADAM for training neural networks. Though the advantages of including curvature information in computing optimization steps have been celebrated in the scientific machine learning literature, the only second-order methods that have been studied are quasi-Newton, meaning that the Hessian matrix of the objective function is approximated. Though one would expect only to gain from using the true Hessian in place of its approximation, we show that neural network training reliably fails when relying on exact curvature information. The failure modes provide insight both into the geometry of nonlinear discretizations as well as the distribution of stationary points in the loss landscape, leading us to question the conventional wisdom that the loss landscape is replete with local minima.
- Abstract(参考訳): ニューラルネットワークのトレーニングには、勾配降下やADAMといった標準のファーストオーダーオプティマイザに代わる有望な方法として、2階法が登場している。
計算最適化ステップに曲率情報を含めることの利点は、科学機械学習の文献で称賛されているが、研究されている2階法は準ニュートンのみであり、目的関数のヘッセン行列が近似される。
正確な曲率情報に頼ると、ニューラルネットワークのトレーニングが確実に失敗することを示す。
障害モードは、非線形離散化の幾何学と損失ランドスケープにおける定常点の分布の両方を洞察し、損失ランドスケープが局所ミニマと重複しているという従来の知恵を疑問視する。
関連論文リスト
- Curvature Learning for Generalization of Hyperbolic Neural Networks [51.888534247573894]
ハイパーボリックニューラルネットワーク(HNN)は,階層構造を持つ実世界のデータを表現する上で,顕著な有効性を示している。
不適切な曲率により、HNNは最適以下のパラメータに収束し、全体的な性能が低下する可能性がある。
本研究では,損失景観の平滑化を図り,HNNの一般化を向上するシャープネス対応曲率学習法を提案する。
論文 参考訳(メタデータ) (2025-08-24T07:14:30Z) - Symmetric Rank-One Quasi-Newton Methods for Deep Learning Using Cubic Regularization [0.5120567378386615]
アダムやアダグラッドのような一階降下や他の一階変種は、ディープラーニングの分野で一般的に使われている。
しかし、これらの手法は曲率情報を活用しない。
準ニュートン法は、以前計算された低ヘッセン近似を再利用する。
論文 参考訳(メタデータ) (2025-02-17T20:20:11Z) - Debiasing Mini-Batch Quadratics for Applications in Deep Learning [22.90473935350847]
二次近似は、機械学習の手法の基本的な構成要素を形成する。
トレーニングセット全体の計算が(ディープラーニングに典型的な)難易度の高い場合、関連する量はミニバッチ上で計算される。
このバイアスは体系的な誤りを生じさせ, (ii) 理論的に説明し, (iii) 深層学習におけるラプラス近似による2次最適化と不確実性の関係を説明し, (iv) 偏見戦略の開発と評価を行う。
論文 参考訳(メタデータ) (2024-10-18T09:37:05Z) - Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Dual Gauss-Newton Directions for Deep Learning [16.77273032202006]
ガウスニュートンのような手法に着想を得て,ディープラーニングの目的の構造を活用する利点について検討した。
このような方向オーラクルを2つの定式化によって計算し,計算上の利点と新たな洞察を両立させることを提案する。
論文 参考訳(メタデータ) (2023-08-17T09:44:05Z) - On the Benefits of Large Learning Rates for Kernel Methods [110.03020563291788]
本稿では,カーネル手法のコンテキストにおいて,現象を正確に特徴付けることができることを示す。
分離可能なヒルベルト空間における2次対象の最小化を考慮し、早期停止の場合、学習速度の選択が得られた解のスペクトル分解に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2022-02-28T13:01:04Z) - Error-Correcting Neural Networks for Two-Dimensional Curvature
Computation in the Level-Set Method [0.0]
本稿では,2次元曲率をレベルセット法で近似するための誤差ニューラルモデルに基づく手法を提案する。
我々の主な貢献は、需要に応じて機械学習操作を可能にする数値スキームに依存する、再設計されたハイブリッド・ソルバである。
論文 参考訳(メタデータ) (2022-01-22T05:14:40Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。