論文の概要: FISMO: Fisher-Structured Momentum-Orthogonalized Optimizer
- arxiv url: http://arxiv.org/abs/2601.21750v1
- Date: Thu, 29 Jan 2026 14:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.877038
- Title: FISMO: Fisher-Structured Momentum-Orthogonalized Optimizer
- Title(参考訳): FISMO:フィジカル構造化モーメントオルソゴン化最適化器
- Authors: Chenrui Xu, Wenjing Yan, Ying-Jun Angela Zhang,
- Abstract要約: 我々は、フィッシャー情報幾何を通して異方性ニューロトロピックな幾何情報を含むFISMOを紹介する。
FISMOは、確立されたベースラインよりも優れた効率と最終性能を達成する。
- 参考スコア(独自算出の注目度): 30.184978506988767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large-scale neural networks requires solving nonconvex optimization where the choice of optimizer fundamentally determines both convergence behavior and computational efficiency. While adaptive methods like Adam have long dominated practice, the recently proposed Muon optimizer achieves superior performance through orthogonalized momentum updates that enforce isotropic geometry with uniform singular values. However, this strict isotropy discards potentially valuable curvature information encoded in gradient spectra, motivating optimization methods that balance geometric structure with adaptivity. We introduce FISMO (Fisher-Structured Momentum-Orthogonalized) optimizer, which generalizes isotropic updates to incorporate anisotropic curvature information through Fisher information geometry. By reformulating the optimizer update as a trust-region problem constrained by a Kronecker-factored Fisher metric, FISMO achieves structured preconditioning that adapts to local loss landscape geometry while maintaining computational tractability. We establish convergence guarantees for FISMO in stochastic nonconvex settings, proving an $\mathcal{O}(1/\sqrt{T})$ rate for the expected squared gradient norm with explicit characterization of variance reduction through mini-batching. Empirical evaluation on image classification and language modeling benchmarks demonstrates that FISMO achieves superior training efficiency and final performance compared to established baselines.
- Abstract(参考訳): 大規模ニューラルネットワークのトレーニングには、オプティマイザの選択が収束挙動と計算効率の両方を根本的に決定する非凸最適化の解決が必要である。
アダムのような適応的手法は長年に渡り実践を独占してきたが、最近提案されたミューオン最適化器は、一様特異値を持つ等方的幾何を強制する直交運動量更新によって優れた性能を達成する。
しかし、この厳密な等方性は勾配スペクトルで符号化された潜在的に価値のある曲率情報を排除し、幾何構造と適応性のバランスをとる最適化手法を動機付けている。
FISMO(Fisher-Structured Momentum-Orthogonalized)オプティマイザ(Fisher-Structued Momentum-Orthogonalized)を導入する。
Kronecker-factored Fisher 計量によって制約された信頼領域問題としてオプティマイザ更新を再構成することにより、FISMOは計算的トラクタビリティを維持しながら、局所的なロスランドスケープ形状に適応する構造化プレコンディショニングを実現する。
確率的非凸設定におけるFISMOの収束保証を確立し、ミニバッチによる分散還元の明示的な特徴を持つ期待二乗勾配ノルムに対する$\mathcal{O}(1/\sqrt{T})$レートを証明した。
画像分類と言語モデルベンチマークの実証評価により、FISMOは確立されたベースラインよりも訓練効率と最終性能が優れていることが示された。
関連論文リスト
- Data-Driven Adaptive Gradient Recovery for Unstructured Finite Volume Computations [0.0]
双曲的保存則に対する非構造有限体積法における勾配再構成の強化のための新しいデータ駆動手法を提案する。
提案手法は,DeepONetアーキテクチャを改良して,従来の構造化グリッド手法を非構造化メッシュに拡張する。
提案アルゴリズムは従来の2階有限体積解法よりも高速かつ高精度である。
論文 参考訳(メタデータ) (2025-07-22T13:23:57Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - Gradient Correction in Federated Learning with Adaptive Optimization [19.93709245766609]
クライアント-ドリフト補償を適応最適化に組み込む最初のアルゴリズムである tt FAdamGC を提案する。
tt FAdamGCは、様々なレベルのデータの通信とコストにおいて、既存の手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-02-04T21:21:30Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。