論文の概要: A Saddle Point Remedy: Power of Variable Elimination in Non-convex Optimization
- arxiv url: http://arxiv.org/abs/2511.01234v1
- Date: Mon, 03 Nov 2025 05:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.125266
- Title: A Saddle Point Remedy: Power of Variable Elimination in Non-convex Optimization
- Title(参考訳): Saddle Point Remedy:非凸最適化における可変除去のパワー
- Authors: Min Gan, Guang-Yong Chen, Yang Yi, Lin Yang,
- Abstract要約: ローカルなミニマではなく、サドルポイントの拡散は、機械学習の大規模非最適化における障害である。
我々は, 変動除去が, 縮小した景観において, 決定的な最大質量を根本的に再認識することを示した。
- 参考スコア(独自算出の注目度): 37.51825281790747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of saddle points, rather than poor local minima, is increasingly understood to be a primary obstacle in large-scale non-convex optimization for machine learning. Variable elimination algorithms, like Variable Projection (VarPro), have long been observed to exhibit superior convergence and robustness in practice, yet a principled understanding of why they so effectively navigate these complex energy landscapes has remained elusive. In this work, we provide a rigorous geometric explanation by comparing the optimization landscapes of the original and reduced formulations. Through a rigorous analysis based on Hessian inertia and the Schur complement, we prove that variable elimination fundamentally reshapes the critical point structure of the objective function, revealing that local maxima in the reduced landscape are created from, and correspond directly to, saddle points in the original formulation. Our findings are illustrated on the canonical problem of non-convex matrix factorization, visualized directly on two-parameter neural networks, and finally validated in training deep Residual Networks, where our approach yields dramatic improvements in stability and convergence to superior minima. This work goes beyond explaining an existing method; it establishes landscape simplification via saddle point transformation as a powerful principle that can guide the design of a new generation of more robust and efficient optimization algorithms.
- Abstract(参考訳): ローカルなミニマではなく、サドルポイントの拡散は、機械学習の大規模非凸最適化における主要な障害であると理解されている。
可変射影(VarPro)のような可変射影アルゴリズムは、実際は優れた収束性と堅牢性を示すことが長年観察されてきたが、なぜこれらの複雑なエネルギー景観を効果的にナビゲートするのかという原則的な理解はいまだに解明されていない。
本研究では,原文および縮小された定式化の最適化景観を比較することで,厳密な幾何学的説明を提供する。
Hessian inertia と Schur の補数に基づく厳密な解析を通じて、変数の除去が目的関数の臨界点構造を根本的に再認識し、縮小された景観における局所的な最大値が元の定式化のサドル点から生成され、直接対応することを明らかにする。
本研究は,非凸行列因数分解の正準問題について考察し,2パラメータニューラルネットワーク上で直接可視化し,最終的に深層残留ネットワークのトレーニングにおいて検証した。
これは、より堅牢で効率的な最適化アルゴリズムの新しい世代の設計を導く強力な原則として、サドルポイント変換によるランドスケープの単純化を確立するものである。
関連論文リスト
- Sharper Convergence Rates for Nonconvex Optimisation via Reduction Mappings [38.819359908152656]
目的の曲率特性をよく設計した縮小写像が向上し, より条件のよい問題や, 理論上は勾配に基づく手法の収束性が向上することを示した。
本分析は,最適化アルゴリズムで観測された経験的利得の原理的説明として,最適な構造情報を活用して収束を加速するシナリオを統一する。
論文 参考訳(メタデータ) (2025-06-10T04:03:59Z) - Energy Landscape Plummeting in Variational Quantum Eigensolver: Subspace Optimization, Non-iterative Corrections and Generator-informed Initialization for Improved Quantum Efficiency [0.0]
変分量子固有解法(VQE)は、ハードウェアノイズとバレンプラトーと局所トラップの存在により、重大な課題に直面している。
本稿では,VQE最適化を低次元部分空間に投影することにより,ハードウェアリソースの利用率と精度を最適化する汎用形式を提案する。
数値シミュレーションにより, 化学にインスパイアされたアンザッツと組み合わせることで, 最小値の1~2桁の精度で推定できることがわかった。
論文 参考訳(メタデータ) (2025-04-17T17:07:09Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Implicit regularization in AI meets generalized hardness of
approximation in optimization -- Sharp results for diagonal linear networks [0.0]
直交線形ネットワークの勾配流による暗黙の正規化について, 鋭い結果を示す。
これを近似の一般化硬度における相転移現象と関連付ける。
結果の非シャープ性は、基礎追従最適化問題に対して、GHA現象が起こらないことを意味する。
論文 参考訳(メタデータ) (2023-07-13T13:27:51Z) - Smooth over-parameterized solvers for non-smooth structured optimization [3.756550107432323]
非滑らか性 (non-smoothness) は、空間性、群空間性、低ランクエッジ、鋭いエッジなどの解の構造的制約を符号化する。
我々は、基礎となる非滑らかな最適化問題の非重み付きだが滑らかな過度パラメータ化を運用する。
我々の主な貢献は変数の一部を明示的に最小化することで新しい定式化を定義する変数射影(VarPro)を適用することです。
論文 参考訳(メタデータ) (2022-05-03T09:23:07Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。