論文の概要: Isotropic Curvature Model for Understanding Deep Learning Optimization: Is Gradient Orthogonalization Optimal?
- arxiv url: http://arxiv.org/abs/2511.00674v1
- Date: Sat, 01 Nov 2025 19:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.888665
- Title: Isotropic Curvature Model for Understanding Deep Learning Optimization: Is Gradient Orthogonalization Optimal?
- Title(参考訳): 深層学習最適化のための等方的曲率モデル:勾配直交化は最適か?
- Authors: Weijie Su,
- Abstract要約: 本稿では,重みの行列構造を利用して,一反復でディープラーニングの最適化を解析するモデルを提案する。
最適更新行列は、元の勾配行列のスペクトルをより均一にすることで得られることを示す。
深層学習と言語モデルの学習のための新しい最適化手法の設計に等方的曲率モデルを活用する方法について,今後の研究について論じる。
- 参考スコア(独自算出の注目度): 2.5336146096572745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce a model for analyzing deep learning optimization over a single iteration by leveraging the matrix structure of the weights. We derive the model by assuming isotropy of curvature, including the second-order Hessian and higher-order terms, of the loss function across all perturbation directions; hence, we call it the isotropic curvature model. This model is a convex optimization program amenable to analysis, which allows us to understand how an update on the weights in the form of a matrix relates to the change in the total loss function. As an application, we use the isotropic curvature model to analyze the recently introduced Muon optimizer and other matrix-gradient methods for training language models. First, we show that under a general growth condition on the curvature, the optimal update matrix is obtained by making the spectrum of the original gradient matrix more homogeneous -- that is, making its singular values closer in ratio -- which in particular improves the conditioning of the update matrix. Next, we show that the orthogonalized gradient becomes optimal for the isotropic curvature model when the curvature exhibits a phase transition in growth. Taken together, these results suggest that the gradient orthogonalization employed in Muon and other related methods is directionally correct but may not be strictly optimal. Finally, we discuss future research on how to leverage the isotropic curvature model for designing new optimization methods for training deep learning and language models.
- Abstract(参考訳): 本稿では,重みの行列構造を利用して,一反復でディープラーニングを最適化するモデルを提案する。
我々は、全ての摂動方向における損失関数の2階ヘッセン項と高階項を含む曲率の等方性(英語版)を仮定することにより、モデルを導出し、等方的曲率モデル(英語版)と呼ぶ。
このモデルは解析に有効な凸最適化プログラムであり、行列の形状における重みの更新が全体の損失関数の変化にどのように関係するかを理解することができる。
応用として、最近導入されたMuonオプティマイザや他の行列勾配法を言語モデルの学習に用いた等方曲率モデルを用いて分析する。
まず、曲率上の一般的な成長条件の下で、最適更新行列は、元の勾配行列のスペクトルをより均質にすることで得られる。
次に、曲率が成長の相転移を示すとき、直交勾配が等方的曲率モデルに最適であることを示す。
これらの結果は、ムオンや他の関連手法で用いられる勾配直交化は方向的に正しいが、厳密には最適ではないかもしれないことを示唆している。
最後に, 深層学習と言語モデルの学習のための新しい最適化手法の設計に等方的曲率モデルを活用する方法について, 今後の研究について考察する。
関連論文リスト
- Preventing Model Collapse Under Overparametrization: Optimal Mixing Ratios for Interpolation Learning and Ridge Regression [4.71547360356314]
モデル崩壊は、生成モデルが自身の合成出力を繰り返し訓練した後で劣化するときに起こる。
この反復スキームの下で最小$$$-normとリッジ回帰の正確な誤差式を導出する。
本分析により, 長期予測誤差を最小化する混合重量の興味深い特性が明らかとなった。
論文 参考訳(メタデータ) (2025-09-26T13:34:48Z) - Generalized Gradient Norm Clipping & Non-Euclidean $(L_0,L_1)$-Smoothness [51.302674884611335]
本研究は、急勾配と条件勾配のアプローチを組み合わせることでノルムクリッピングを一般化するハイブリッド非ユークリッド最適化手法を提案する。
本稿では、ディープラーニングのためのアルゴリズムのインスタンス化について論じ、画像分類と言語モデリングにおけるそれらの特性を実証する。
論文 参考訳(メタデータ) (2025-06-02T17:34:29Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - FineMorphs: Affine-diffeomorphic sequences for regression [1.1421942894219896]
モデル状態は学習中に滑らかなベクトル場によって生成される微分同相によって最適に「再形」される。
アフィン変換とベクトル場は最適制御設定内で最適化される。
このモデルは次元を自然に減らし(あるいは増大させる)、最適なベクトル場を通して大きなデータセットに適応することができる。
論文 参考訳(メタデータ) (2023-05-26T20:54:18Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - Graph Polynomial Convolution Models for Node Classification of
Non-Homophilous Graphs [52.52570805621925]
本研究では,高階グラフ畳み込みからの効率的な学習と,ノード分類のための隣接行列から直接学習する。
得られたモデルが新しいグラフと残留スケーリングパラメータをもたらすことを示す。
提案手法は,非親和性パラメータのノード分類における精度の向上を実証する。
論文 参考訳(メタデータ) (2022-09-12T04:46:55Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z) - Geometry, Computation, and Optimality in Stochastic Optimization [24.154336772159745]
問題幾何学の計算および統計的結果とオンライン最適化について検討する。
制約集合と勾配幾何学に焦点をあてて、どの次法と適応次法が最適(minimax)であるかという問題族を特徴づける。
論文 参考訳(メタデータ) (2019-09-23T16:14:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。