論文の概要: FISMO: Fisher-Structured Momentum-Orthogonalized Optimizer
- arxiv url: http://arxiv.org/abs/2601.21750v1
- Date: Thu, 29 Jan 2026 14:05:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.877038
- Title: FISMO: Fisher-Structured Momentum-Orthogonalized Optimizer
- Title(参考訳): FISMO:フィジカル構造化モーメントオルソゴン化最適化器
- Authors: Chenrui Xu, Wenjing Yan, Ying-Jun Angela Zhang,
- Abstract要約: 我々は、フィッシャー情報幾何を通して異方性ニューロトロピックな幾何情報を含むFISMOを紹介する。
FISMOは、確立されたベースラインよりも優れた効率と最終性能を達成する。
- 参考スコア(独自算出の注目度): 30.184978506988767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large-scale neural networks requires solving nonconvex optimization where the choice of optimizer fundamentally determines both convergence behavior and computational efficiency. While adaptive methods like Adam have long dominated practice, the recently proposed Muon optimizer achieves superior performance through orthogonalized momentum updates that enforce isotropic geometry with uniform singular values. However, this strict isotropy discards potentially valuable curvature information encoded in gradient spectra, motivating optimization methods that balance geometric structure with adaptivity. We introduce FISMO (Fisher-Structured Momentum-Orthogonalized) optimizer, which generalizes isotropic updates to incorporate anisotropic curvature information through Fisher information geometry. By reformulating the optimizer update as a trust-region problem constrained by a Kronecker-factored Fisher metric, FISMO achieves structured preconditioning that adapts to local loss landscape geometry while maintaining computational tractability. We establish convergence guarantees for FISMO in stochastic nonconvex settings, proving an $\mathcal{O}(1/\sqrt{T})$ rate for the expected squared gradient norm with explicit characterization of variance reduction through mini-batching. Empirical evaluation on image classification and language modeling benchmarks demonstrates that FISMO achieves superior training efficiency and final performance compared to established baselines.
- Abstract(参考訳): 大規模ニューラルネットワークのトレーニングには、オプティマイザの選択が収束挙動と計算効率の両方を根本的に決定する非凸最適化の解決が必要である。
アダムのような適応的手法は長年に渡り実践を独占してきたが、最近提案されたミューオン最適化器は、一様特異値を持つ等方的幾何を強制する直交運動量更新によって優れた性能を達成する。
しかし、この厳密な等方性は勾配スペクトルで符号化された潜在的に価値のある曲率情報を排除し、幾何構造と適応性のバランスをとる最適化手法を動機付けている。
FISMO(Fisher-Structured Momentum-Orthogonalized)オプティマイザ(Fisher-Structued Momentum-Orthogonalized)を導入する。
Kronecker-factored Fisher 計量によって制約された信頼領域問題としてオプティマイザ更新を再構成することにより、FISMOは計算的トラクタビリティを維持しながら、局所的なロスランドスケープ形状に適応する構造化プレコンディショニングを実現する。
確率的非凸設定におけるFISMOの収束保証を確立し、ミニバッチによる分散還元の明示的な特徴を持つ期待二乗勾配ノルムに対する$\mathcal{O}(1/\sqrt{T})$レートを証明した。
画像分類と言語モデルベンチマークの実証評価により、FISMOは確立されたベースラインよりも訓練効率と最終性能が優れていることが示された。
関連論文リスト
- ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations [54.886931928255564]
低ランク適応(LoRA)は、深層移動学習においてパラメータ効率の高い微調整法として広く採用されている。
常微分方程式(ODE)の形でLoRA因子行列に対する新しい連続時間最適化ダイナミクスを提案する。
ODELoRAは,問題次元の異なるスケールのディープニューラルネットワークのトレーニングに不可欠な特性である,安定した特徴学習を実現する。
論文 参考訳(メタデータ) (2026-02-07T10:19:36Z) - Variational Entropic Optimal Transport [67.76725267984578]
本稿では,ドメイン翻訳問題に対する変分エントロピー最適輸送(VarEOT)を提案する。
VarEOTは、補助正の正規化子上のトラクタブルな一般化として、log-partition $log mathbbE[exp(cdot)$の正確な変分再構成に基づいている。
合成データと画像と画像の変換に関する実験は、競争力のあるか、あるいはより良い翻訳品質を示す。
論文 参考訳(メタデータ) (2026-02-02T15:48:44Z) - Majorization-Minimization Networks for Inverse Problems: An Application to EEG Imaging [4.063392865490957]
逆問題はしばしば誤りを犯し、強い安定性と収束を保証する最適化スキームを必要とする。
本稿では,二段階最適化設定における逆問題に対する学習されたMajorization-Minimization(MM)フレームワークを提案する。
我々は,古典的MM降下保証を保ちながら,各MMステップを管理する構造化曲率行列を学習する。
論文 参考訳(メタデータ) (2026-01-23T10:33:45Z) - NOVAK: Unified adaptive optimizer for deep neural networks [0.0]
NOVAKは、適応モーメント推定、修正学習率スケジューリング、デカップリングウェイト正規化、ネステロフ運動量の複数変種、ルックアヘッド同期を統一されたパフォーマンス指向のフレームワークに統合する勾配に基づく最適化アルゴリズムである。
論文 参考訳(メタデータ) (2026-01-11T13:03:57Z) - Data-Driven Adaptive Gradient Recovery for Unstructured Finite Volume Computations [0.0]
双曲的保存則に対する非構造有限体積法における勾配再構成の強化のための新しいデータ駆動手法を提案する。
提案手法は,DeepONetアーキテクチャを改良して,従来の構造化グリッド手法を非構造化メッシュに拡張する。
提案アルゴリズムは従来の2階有限体積解法よりも高速かつ高精度である。
論文 参考訳(メタデータ) (2025-07-22T13:23:57Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - AYLA: Amplifying Gradient Sensitivity via Loss Transformation in Non-Convex Optimization [0.0]
Gradient Descent (SGD)とその変種(ADAMなど)はディープラーニングの最適化の基礎となっている。
本稿では、動的トレーニングを強化する新しいフレームワークであるAYLAを紹介する。
論文 参考訳(メタデータ) (2025-04-02T16:31:39Z) - Gradient Correction in Federated Learning with Adaptive Optimization [19.93709245766609]
クライアント-ドリフト補償を適応最適化に組み込む最初のアルゴリズムである tt FAdamGC を提案する。
tt FAdamGCは、様々なレベルのデータの通信とコストにおいて、既存の手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-02-04T21:21:30Z) - Adaptive Federated Learning Over the Air [108.62635460744109]
オーバー・ザ・エア・モデル・トレーニングの枠組みの中で,適応勾配法,特にAdaGradとAdamの連合バージョンを提案する。
解析の結果,AdaGrad に基づくトレーニングアルゴリズムは $mathcalO(ln(T) / T 1 - frac1alpha の速度で定常点に収束することがわかった。
論文 参考訳(メタデータ) (2024-03-11T09:10:37Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - LQF: Linear Quadratic Fine-Tuning [114.3840147070712]
本稿では,非線形微調整に匹敵する性能を実現する事前学習モデルの線形化手法を提案する。
LQFはアーキテクチャの単純な変更、損失関数、そして一般的に分類に使用される最適化で構成されている。
論文 参考訳(メタデータ) (2020-12-21T06:40:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。