論文の概要: Error whitening: Why Gauss-Newton outperforms Newton
- arxiv url: http://arxiv.org/abs/2605.11316v1
- Date: Mon, 11 May 2026 23:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.470365
- Title: Error whitening: Why Gauss-Newton outperforms Newton
- Title(参考訳): エラー・ホワイトニング:なぜガウス・ニュートンがニュートンを上回ったのか
- Authors: Maricela Best McKay, Nathan P. Lawrence, Brian Wetton, R. Bhushan Gopaluni,
- Abstract要約: ガウス・ニュートンが関数空間のニュートン方向をモデル空間に投影していることが示される。
ガウスニュートンは理論的に予測された函数空間のダイナミクスに従ってニュートン法より優れていることを実証的に証明する。
- 参考スコア(独自算出の注目度): 0.9216325369400603
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Gauss-Newton matrix is widely viewed as a positive semidefinite approximation of the Hessian, yet mounting empirical evidence shows that Gauss-Newton descent outperforms Newton's method. We adopt a function space perspective to analyze this phenomenon. We show that the generalized Gauss-Newton (GGN) matrix projects the Newton direction in function space onto the model's tangent space, while a Jacobian-only variant obtained by applying the least squares Gauss-Newton matrix to non-least squares losses projects the function space loss gradient onto this same tangent space. Both projections eliminate distortions from the model's parameterization. Specifically, the evolution of the prediction-target mismatch depends on the model's parameterization through the matrix $JJ^\top$ where $J$ is the Jacobian of the model with respect to its parameters. The projections effectively replace $JJ^\top$ with the identity. We call this effect error whitening. Once the parameterization is removed, the prediction-target mismatch evolves according to dynamics dictated by the structure of the loss and the projection produced by the optimizer. Error whitening is a special property of Gauss-Newton descent that rigorously distinguishes it from Newton's method. We empirically demonstrate that Gauss-Newton optimizers follow the theoretically predicted function space dynamics and outperforms Newton's method, Adam, and Muon across case studies spanning supervised learning, physics-informed deep learning, and approximate dynamic programming.
- Abstract(参考訳): ガウス・ニュートン行列は、ヘッセンの正の半定値近似として広く見なされているが、実証的な証拠は、ガウス・ニュートン降下がニュートンの方法より優れていることを示している。
この現象を解析するために関数空間の観点を採用する。
一般化されたガウス・ニュートン行列(GGN)は、関数空間のニュートン方向をモデルの接空間に投影するのに対し、最小二乗ガウス・ニュートン行列を非最小二乗に応用したヤコビアンのみの多様体は、関数空間損失勾配を同じ接空間に投影することを示す。
どちらの射影もモデルのパラメータ化から歪みを取り除く。
具体的には、予測対象ミスマッチの進化は、行列 $JJ^\top$ を通じてモデルのパラメータ化に依存する。
プロジェクションは、事実上$JJ^\top$をIDに置き換える。
私たちはこの効果をホワイトニングと呼ぶ。
パラメータ化が除去されると、損失の構造とオプティマイザが生成するプロジェクションによって予測されるダイナミクスに従って予測目標ミスマッチが進化する。
誤りの白化はガウス・ニュートンの子孫の特別な性質であり、ニュートンの方法と厳密に区別している。
ガウス=ニュートン最適化器は理論的に予測された関数空間のダイナミクスに従い、教師付き学習、物理インフォームドディープラーニング、近似動的プログラミングにまたがるケーススタディにおいてニュートン法、アダム法、ムーン法より優れていることを実証的に実証した。
関連論文リスト
- The Newton-Muon Optimizer [2.1583596008762935]
我々は,Muonの設計イテレーションに新たな光を放つ代理モデルを導入する。
Newton-Muonと呼ばれる新しい最適化手法は、標準のMuonを暗黙のNewton-typeメソッドとして解釈できることを示している。
論文 参考訳(メタデータ) (2026-04-01T23:29:08Z) - Adam or Gauss-Newton? A Comparative Study In Terms of Basis Alignment and SGD Noise [47.09204878445274]
2つの主要なアプローチは、Adam と Gauss-Newton (GN) の手法に基づいている。
本稿では,これら2つの対角的プレコンディショニング手法を比較し,この2つの重要な要素,すなわち,プリコンディショナーにおけるベースの選択と,ミニバッチによるノイズの影響を比較した。
論文 参考訳(メタデータ) (2025-10-15T15:36:43Z) - Scaling Laws in Linear Regression: Compute, Parameters, and Data [86.48154162485712]
無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。
テストエラーの再現可能な部分は$Theta(-(a-1) + N-(a-1)/a)$であることを示す。
我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。
論文 参考訳(メタデータ) (2024-06-12T17:53:29Z) - Modified Gauss-Newton Algorithms under Noise [2.0454959820861727]
Gauss-Newton や proxlinear のアルゴリズムは、大規模な統計的設定における勾配降下と比較して、対照的な結果をもたらす可能性がある。
本稿では, この2種類のアルゴリズムの対比性能を, 統計的手法を用いて理論的に検証し, 構造化予測を含む学習問題について実験的に検討する。
論文 参考訳(メタデータ) (2023-05-18T01:10:42Z) - Bayes-Newton Methods for Approximate Bayesian Inference with PSD
Guarantees [18.419390913544504]
この視点は、数値最適化の枠組みの下で推論アルゴリズムを明示的に採用する。
最適化文献からのニュートン法に対する共通近似は、この「ベイズ・ニュートン」フレームワークの下でも有効であることを示す。
我々の統一的な視点は、様々な推論スキーム間の関係に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2021-11-02T16:39:29Z) - Newton-LESS: Sparsification without Trade-offs for the Sketched Newton
Update [88.73437209862891]
2階最適化において、潜在的なボトルネックは繰り返しごとに最適化関数のヘシアン行列を計算することである。
本稿では,ガウススケッチ行列を劇的に分散させることにより,スケッチの計算コストを大幅に削減できることを示す。
ニュートン=ルネッサはガウス埋め込みとほぼ同じ問題に依存しない局所収束率を享受していることを証明した。
論文 参考訳(メタデータ) (2021-07-15T17:33:05Z) - Learning a Single Neuron with Bias Using Gradient Descent [53.15475693468925]
単一ニューロンをバイアス項で学習する基本的な問題について検討する。
これはバイアスのないケースとは大きく異なり、より難しい問題であることを示す。
論文 参考訳(メタデータ) (2021-06-02T12:09:55Z) - Disentangling the Gauss-Newton Method and Approximate Inference for
Neural Networks [96.87076679064499]
我々は一般化されたガウスニュートンを解き、ベイズ深層学習の近似推論を行う。
ガウス・ニュートン法は基礎となる確率モデルを大幅に単純化する。
ガウス過程への接続は、新しい関数空間推論アルゴリズムを可能にする。
論文 参考訳(メタデータ) (2020-07-21T17:42:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。