論文の概要: Comparing BFGS and OGR for Second-Order Optimization
- arxiv url: http://arxiv.org/abs/2512.06969v1
- Date: Sun, 07 Dec 2025 19:26:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.61076
- Title: Comparing BFGS and OGR for Second-Order Optimization
- Title(参考訳): 2次最適化のためのBFGSとOGRの比較
- Authors: Adrian Przybysz, Mikołaj Kołek, Franciszek Sobota, Jarek Duda,
- Abstract要約: 一般的なBFGS法で使用されている古典的なシャーマン・モリソンの更新を比較した。
BFGSとは異なり、OGR は一般(必ずしも正ではない)ヘッセン反転を推定できる。
- 参考スコア(独自算出の注目度): 0.15999407512883507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the Hessian matrix, especially for neural network training, is a challenging problem due to high dimensionality and cost. In this work, we compare the classical Sherman-Morrison update used in the popular BFGS method (Broy-den-Fletcher-Goldfarb-Shanno), which maintains a positive definite Hessian approximation under a convexity assumption, with a novel approach called Online Gradient Regression (OGR). OGR performs regression of gradients against positions using an exponential moving average to estimate second derivatives online, without requiring Hessian inversion. Unlike BFGS, OGR allows estimation of a general (not necessarily positive definite) Hessian and can thus handle non-convex structures. We evaluate both methods across standard test functions and demonstrate that OGR achieves faster convergence and improved loss, particularly in non-convex settings.
- Abstract(参考訳): ヘッセン行列の推定、特にニューラルネットワークトレーニングは、高次元性とコストのために難しい問題である。
本研究では,一般のBFGS法(Broy-den-Fletcher-Goldfarb-Shanno)で使用されている古典的シャーマン・モリソン更新を,凸性仮定の下で正定値ヘッセン近似を維持できる手法であるオンライングラディエント回帰(OGR)と比較する。
OGRは指数移動平均を用いて位置に対する勾配の回帰を行い、ヘッセン反転を必要とせず、オンラインで二次微分を推定する。
BFGSとは異なり、OGRは一般(必ずしも正定値ではない)ヘッセンを推定することができ、したがって非凸構造を扱える。
両手法を標準テスト関数間で評価し,特に非凸条件下でOGRがより高速な収束と損失改善を実現することを示す。
関連論文リスト
- Policy Gradient with Second Order Momentum [2.44755919161855]
第2次モメンタムによるポリシーグラディエント(PG-SOM)は、強化学習政策のための軽量な2次最適化スキームである。
PG-SOMは古典的なREINFORCE更新を2つの指数関数的に重み付けされた統計量で強化している。
標準制御ベンチマークの実験では、サンプル効率が2.1倍に向上し、第1次やフィッシャー・マトリクスのベースラインに比べてかなりのばらつきが減少した。
論文 参考訳(メタデータ) (2025-05-16T06:23:53Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Fast Robust Kernel Regression through Sign Gradient Descent with Early Stopping [1.5229257192293204]
カーネルリッジ回帰(カーネルリッジ回帰、英: Kernel ridge regression、KRR)は、データにおいて非線形であるが、モデルパラメータでは線形である線形リッジ回帰の一般化である。
我々は、KRRの目的関数の等価性を導入し、リッジペナルティを$ell_infty$と$ell_1$ペナルティに置き換える。
提案手法は精度を損なうことなく, 桁違いに高速であることを示す。
論文 参考訳(メタデータ) (2023-06-29T10:29:29Z) - Scalable Gaussian-process regression and variable selection using
Vecchia approximations [3.4163060063961255]
ヴェッキアをベースとしたミニバッチサブサンプリングは、偏りのない勾配推定器を提供する。
偏りのない勾配推定器を提供するVecchiaベースのミニバッチサブサンプリングを提案する。
論文 参考訳(メタデータ) (2022-02-25T21:22:38Z) - ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。
我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。
有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文 参考訳(メタデータ) (2020-08-28T14:46:56Z) - When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。
本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文 参考訳(メタデータ) (2020-06-18T17:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。