論文の概要: Dimer-Enhanced Optimization: A First-Order Approach to Escaping Saddle Points in Neural Network Training
- arxiv url: http://arxiv.org/abs/2507.19968v1
- Date: Sat, 26 Jul 2025 14:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:56.562072
- Title: Dimer-Enhanced Optimization: A First-Order Approach to Escaping Saddle Points in Neural Network Training
- Title(参考訳): Dimer-Enhanced Optimization: ニューラルネットワークトレーニングにおけるサドルポイントエスケープへの一次的アプローチ
- Authors: Yue Hu, Zanxia Cao, Yingchao Liu,
- Abstract要約: ダイマー法(英: Dimer method)は、ポテンシャルエネルギー表面の局所幾何学を探索する2つの密接な空間を持つ点を構成する一階法である。
分子動力学シミュレーションによるサドル点の位置推定に着想を得て, ダイマー最適化を提案する。
DEOは、サドルポイントやフラットリージョンから離れて、ステップ外の更新でトレーニング効率を向上させる。
- 参考スコア(独自算出の注目度): 5.9408311406202285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: First-order optimization methods, such as SGD and Adam, are widely used for training large-scale deep neural networks due to their computational efficiency and robust performance. However, relying solely on gradient information, these methods often struggle to navigate complex loss landscapes with flat regions, plateaus, and saddle points. Second-order methods, which use curvature information from the Hessian matrix, can address these challenges but are computationally infeasible for large models. The Dimer method, a first-order technique that constructs two closely spaced points to probe the local geometry of a potential energy surface, efficiently estimates curvature using only gradient information. Inspired by its use in molecular dynamics simulations for locating saddle points, we propose Dimer-Enhanced Optimization (DEO), a novel framework to escape saddle points in neural network training. DEO adapts the Dimer method to explore a broader region of the loss landscape, approximating the Hessian's smallest eigenvector without computing the full matrix. By periodically projecting the gradient onto the subspace orthogonal to the minimum curvature direction, DEO guides the optimizer away from saddle points and flat regions, enhancing training efficiency with non-stepwise updates. Preliminary experiments on a Transformer toy model show DEO achieves competitive performance compared to standard first-order methods, improving navigation of complex loss landscapes. Our work repurposes physics-inspired, first-order curvature estimation to enhance neural network training in high-dimensional spaces.
- Abstract(参考訳): SGDやAdamのような一階最適化手法は、計算効率と堅牢な性能のため、大規模なディープニューラルネットワークのトレーニングに広く用いられている。
しかしながら、勾配情報のみに依存するため、これらの手法は平坦な地域、高原、サドルポイントを含む複雑な損失景観をナビゲートするのに苦労することが多い。
ヘッセン行列からの曲率情報を利用する二階法はこれらの問題に対処できるが、大規模モデルでは計算不可能である。
ダイマー法(Dimer method)は、ポテンシャルエネルギー表面の局所幾何学を探索するために2つの密接な空間を持つ点を構成する一階法であり、勾配情報のみを用いて効率よく曲率を推定する。
分子動力学シミュレーションによるサドル点の探索に着想を得て,ニューラルネットワークトレーニングにおけるサドル点の回避を目的とした新しいフレームワークであるDimer-Enhanced Optimization (DEO)を提案する。
DEOは、損失ランドスケープの広い領域を探索するためにダイマー法を適用し、完全な行列を計算せずにヘッセンの最小固有ベクトルを近似する。
勾配を最小曲率方向に直交する部分空間に周期的に投影することにより、DECは最適化器をサドル点や平坦領域から遠ざけ、非ステップ更新によるトレーニング効率を向上させる。
Transformer の玩具モデルに関する予備実験では、DEO は標準的な一階法と比較して競争性能が向上し、複雑な損失景観のナビゲーションが向上した。
我々の研究は、高次元空間におけるニューラルネットワークトレーニングを強化するために、物理学に着想を得た一階曲率推定を再利用する。
関連論文リスト
- Optimistic Gradient Learning with Hessian Corrections for High-Dimensional Black-Box Optimization [14.073853819633745]
ブラックボックスアルゴリズムは、基礎となる解析構造や勾配情報に頼ることなく、関数を最適化するように設計されている。
本研究では,高次元・複雑・非線形問題による課題に対処するための2つの新しい勾配学習変種を提案する。
論文 参考訳(メタデータ) (2025-02-07T11:03:50Z) - Deep Loss Convexification for Learning Iterative Models [11.36644967267829]
点雲登録のための反復的最近点(ICP)のような反復的手法は、しばしば悪い局所最適性に悩まされる。
我々は,各地真実の周囲に凸景観を形成する学習を提案する。
論文 参考訳(メタデータ) (2024-11-16T01:13:04Z) - NeuralGF: Unsupervised Point Normal Estimation by Learning Neural
Gradient Function [55.86697795177619]
3次元点雲の正規推定は3次元幾何処理の基本的な課題である。
我々は,ニューラルネットワークが入力点雲に適合することを奨励する,ニューラルグラデーション関数の学習のための新しいパラダイムを導入する。
広範に使用されているベンチマークの優れた結果から,本手法は非指向性および指向性正常推定タスクにおいて,より正確な正規性を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-01T09:25:29Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Optimization-Based Separations for Neural Networks [57.875347246373956]
本研究では,2層のシグモダルアクティベーションを持つディープ2ニューラルネットワークを用いて,ボールインジケータ関数を効率よく学習できることを示す。
これは最適化に基づく最初の分離結果であり、より強力なアーキテクチャの近似の利点は、実際に確実に現れる。
論文 参考訳(メタデータ) (2021-12-04T18:07:47Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z) - A block coordinate descent optimizer for classification problems
exploiting convexity [0.0]
隠れ層の重み付けにおけるクロスエントロピー損失の凸性を利用した分類タスクのためのディープ線形ネットワークに座標降下法を導入する。
線形層に対する大域的最適パラメータと隠蔽層への勾配勾配を求める2次法とを交互に組み合わせることで、トレーニング全体を通してデータに対する適応基底の最適適合性を確保する。
論文 参考訳(メタデータ) (2020-06-17T19:49:06Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。