Fugu-MT 論文翻訳(概要): Comparing BFGS and OGR for Second-Order Optimization

論文の概要: Comparing BFGS and OGR for Second-Order Optimization

arxiv url: http://arxiv.org/abs/2512.06969v1
Date: Sun, 07 Dec 2025 19:26:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-09 22:03:54.61076
Title: Comparing BFGS and OGR for Second-Order Optimization
Title（参考訳）: 2次最適化のためのBFGSとOGRの比較
Authors: Adrian Przybysz, Mikołaj Kołek, Franciszek Sobota, Jarek Duda,
Abstract要約: 一般的なBFGS法で使用されている古典的なシャーマン・モリソンの更新を比較した。 BFGSとは異なり、OGR は一般(必ずしも正ではない)ヘッセン反転を推定できる。
参考スコア（独自算出の注目度）: 0.15999407512883507
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Estimating the Hessian matrix, especially for neural network training, is a challenging problem due to high dimensionality and cost. In this work, we compare the classical Sherman-Morrison update used in the popular BFGS method (Broy-den-Fletcher-Goldfarb-Shanno), which maintains a positive definite Hessian approximation under a convexity assumption, with a novel approach called Online Gradient Regression (OGR). OGR performs regression of gradients against positions using an exponential moving average to estimate second derivatives online, without requiring Hessian inversion. Unlike BFGS, OGR allows estimation of a general (not necessarily positive definite) Hessian and can thus handle non-convex structures. We evaluate both methods across standard test functions and demonstrate that OGR achieves faster convergence and improved loss, particularly in non-convex settings.
Abstract（参考訳）: ヘッセン行列の推定、特にニューラルネットワークトレーニングは、高次元性とコストのために難しい問題である。本研究では,一般のBFGS法(Broy-den-Fletcher-Goldfarb-Shanno)で使用されている古典的シャーマン・モリソン更新を,凸性仮定の下で正定値ヘッセン近似を維持できる手法であるオンライングラディエント回帰(OGR)と比較する。 OGRは指数移動平均を用いて位置に対する勾配の回帰を行い、ヘッセン反転を必要とせず、オンラインで二次微分を推定する。 BFGSとは異なり、OGRは一般(必ずしも正定値ではない)ヘッセンを推定することができ、したがって非凸構造を扱える。両手法を標準テスト関数間で評価し,特に非凸条件下でOGRがより高速な収束と損失改善を実現することを示す。

関連論文リスト

Policy Gradient with Second Order Momentum [2.44755919161855]
第2次モメンタムによるポリシーグラディエント(PG-SOM)は、強化学習政策のための軽量な2次最適化スキームである。 PG-SOMは古典的なREINFORCE更新を2つの指数関数的に重み付けされた統計量で強化している。標準制御ベンチマークの実験では、サンプル効率が2.1倍に向上し、第1次やフィッシャー・マトリクスのベースラインに比べてかなりのばらつきが減少した。
論文参考訳（メタデータ） (2025-05-16T06:23:53Z)
Taming Nonconvex Stochastic Mirror Descent with General Bregman Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-27T17:56:49Z)
Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。本稿では,直感的に設計を記述し,設計選択について説明する。本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文参考訳（メタデータ） (2023-10-31T16:15:13Z)
Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文参考訳（メタデータ） (2023-10-20T12:45:12Z)
Fast Robust Kernel Regression through Sign Gradient Descent with Early Stopping [1.5229257192293204]
カーネルリッジ回帰(カーネルリッジ回帰、英: Kernel ridge regression、KRR)は、データにおいて非線形であるが、モデルパラメータでは線形である線形リッジ回帰の一般化である。我々は、KRRの目的関数の等価性を導入し、リッジペナルティを$ell_infty$と$ell_1$ペナルティに置き換える。提案手法は精度を損なうことなく, 桁違いに高速であることを示す。
論文参考訳（メタデータ） (2023-06-29T10:29:29Z)
How Does Adaptive Optimization Impact Local Neural Network Geometry? [32.32593743852949]
ニューラルネットワーク最適化の文脈では、この伝統的な視点は不十分である、と我々は主張する。我々は、アダムのような適応的な手法が、より高速な収束を期待できる領域への軌道に偏っていることを示す。
論文参考訳（メタデータ） (2022-11-04T04:05:57Z)
Scalable Gaussian-process regression and variable selection using Vecchia approximations [3.4163060063961255]
ヴェッキアをベースとしたミニバッチサブサンプリングは、偏りのない勾配推定器を提供する。偏りのない勾配推定器を提供するVecchiaベースのミニバッチサブサンプリングを提案する。
論文参考訳（メタデータ） (2022-02-25T21:22:38Z)
Why Approximate Matrix Square Root Outperforms Accurate SVD in Global Covariance Pooling? [59.820507600960745]
本稿では,前方通過のSVDと後方伝播のPad'e近似を用いて勾配を計算する新しいGCPメタ層を提案する。提案するメタレイヤは,さまざまなCNNモデルに統合され,大規模および微細なデータセット上で最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-05-06T08:03:45Z)
Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文参考訳（メタデータ） (2021-02-06T15:05:14Z)
ROOT-SGD: Sharp Nonasymptotics and Near-Optimal Asymptotics in a Single Algorithm [71.13558000599839]
第一次アルゴリズムを用いて,厳密な凸と滑らかな非制約最適化問題の解法について検討する。我々は,過去の勾配を平均化し,実装が容易な小説「Recursive One-Over-T SGD」を考案した。有限サンプル, 漸近感覚, 感覚の両面において, 最先端の性能を同時に達成できることを実証する。
論文参考訳（メタデータ） (2020-08-28T14:46:56Z)
When Does Preconditioning Help or Hurt Generalization? [74.25170084614098]
本稿では,第1次および第2次手法のテキスト単純バイアスが一般化特性の比較にどのように影響するかを示す。本稿では、バイアス分散トレードオフを管理するためのいくつかのアプローチと、GDとNGDを補間する可能性について論じる。
論文参考訳（メタデータ） (2020-06-18T17:57:26Z)
Towards Better Understanding of Adaptive Gradient Algorithms in Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文参考訳（メタデータ） (2019-12-26T22:10:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。