論文の概要: FlowAdam: Implicit Regularization via Geometry-Aware Soft Momentum Injection
- arxiv url: http://arxiv.org/abs/2604.06652v1
- Date: Wed, 08 Apr 2026 03:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.329188
- Title: FlowAdam: Implicit Regularization via Geometry-Aware Soft Momentum Injection
- Title(参考訳): FlowAdam:Geometry-Aware Soft Momentum Injectionによる特異な正規化
- Authors: Devender Singh, Tarun Sheel,
- Abstract要約: FlowAdamはAdamを通常の微分方程式(ODE)を介して連続的な勾配流積分で強化する
ソフトモーメントインジェクションはモード遷移中のAdamの運動量とODE速度を混合する。
結合された最適化ベンチマーク全体で、ODE統合は暗黙の正規化を提供し、ホールドアウトエラーを10-22%削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adaptive moment methods such as Adam use a diagonal, coordinate-wise preconditioner based on exponential moving averages of squared gradients. This diagonal scaling is coordinate-system dependent and can struggle with dense or rotated parameter couplings, including those in matrix factorization, tensor decomposition, and graph neural networks, because it treats each parameter independently. We introduce FlowAdam, a hybrid optimizer that augments Adam with continuous gradient-flow integration via an ordinary differential equation (ODE). When EMA-based statistics detect landscape difficulty, FlowAdam switches to clipped ODE integration. Our central contribution is Soft Momentum Injection, which blends ODE velocity with Adam's momentum during mode transitions. This prevents the training collapse observed with naive hybrid approaches. Across coupled optimization benchmarks, the ODE integration provides implicit regularization, reducing held-out error by 10-22% on low-rank matrix/tensor recovery and 6% on Jester (real-world collaborative filtering), also surpassing tuned Lion and AdaBelief, while matching Adam on well-conditioned workloads (CIFAR-10). MovieLens-100K confirms benefits arise specifically from coupled parameter interactions rather than bias estimation. Ablation studies show that soft injection is essential, as hard replacement reduces accuracy from 100% to 82.5%.
- Abstract(参考訳): アダムのような適応モーメント法は、二乗勾配の指数的な移動平均に基づく対角座標の事前条件を用いる。
この対角スケーリングは座標系に依存しており、行列係数化、テンソル分解、グラフニューラルネットワークなど、各パラメータを独立に扱うため、密度あるいは回転したパラメータ結合に苦労することがある。
本稿では、Adamを正規微分方程式(ODE)を介して連続的な勾配-流積分で拡張するハイブリッドオプティマイザであるFlowAdamを紹介する。
EMAベースの統計がランドスケープの難しさを検出すると、FlowAdamはクリップされたODE統合に切り替える。
我々の中心的な貢献は、モード遷移中にODE速度とAdamの運動量とをブレンドするソフトモーメントインジェクションである。
これにより、単純ハイブリッドアプローチで観察されるトレーニングの崩壊が防止される。
最適化ベンチマークの合計で、ODE統合は暗黙の正規化を提供し、低ランクのマトリックス/テンソルリカバリでは10-22%、Jesterでは6%、チューニングされたLionとAdaBeliefを上回り、Adamを良条件のワークロード(CIFAR-10)でマッチングする。
MovieLens-100Kは、バイアス推定よりも、パラメータの相互作用の結合によって生じる利点を確認している。
アブレーション研究は、ハード交換が100%から82.5%まで精度を低下させるため、ソフトインジェクションが不可欠であることを示している。
関連論文リスト
- AE-ViT: Stable Long-Horizon Parametric Partial Differential Equations Modeling [0.0]
本稿では、畳み込みエンコーダと、潜在表現を操作するトランスフォーマーと、再構成のためのデコーダからなるジョイントモデルを提案する。
提案手法は,潜在進化の効率と全フィールドモデルの忠実さを組み合わせ,多フィールド予測におけるDL-ROM,潜伏変圧器,平VTの性能を向上する。
論文 参考訳(メタデータ) (2026-04-07T21:19:45Z) - Decoupled Orthogonal Dynamics: Regularization for Deep Network Optimizers [7.170491058218013]
我々はマグニチュードと方向が異なる役割を担い、動的に分離されるべきであると主張している。
SGDスタイルの更新は1次元ノルム制御を処理し、Adamの適応的プレコンディショニングは接部分空間に限定される。
ビジョンと言語タスクの実験は、AdamOがAdamWに対する一般化と安定性を改善し、追加の複雑な制約を導入することなく実現していることを示している。
論文 参考訳(メタデータ) (2026-02-04T23:41:51Z) - INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - SPIRE: Conditional Personalization for Federated Diffusion Generative Models [7.8583640700306585]
Shared Backbone Personal Identity Representation Embeddings (SPIRE)は、FLで条件付き生成としてクライアント拡散ベースの生成をキャストするフレームワークである。
SPIREは、ネットワークを(i)人口レベルのスコア関数を学習する高容量なグローバルバックボーンと、(ii)ローカルデータ統計を符号化する軽量で学習可能なクライアント埋め込みに分解する。
我々の分析は、クライアントの埋め込みが共有スコアネットワークをパーソナライズするバイアスとしてどのように振舞うかを示唆している。
論文 参考訳(メタデータ) (2025-06-14T01:40:31Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Towards Communication-efficient Federated Learning via Sparse and Aligned Adaptive Optimization [90.08459757321405]
Federated Adam (FedAdam) アルゴリズムはアップリンク通信オーバーヘッドの3倍の増大に悩まされている。
我々はFedAdam-SSMと呼ばれる新しいスパースなFedAdamアルゴリズムを提案する。
我々は,FedAdam-SSMが訓練したモデルと集中型Adamの差異を最小化することにより,スペーシフィケーションエラーによる学習性能劣化を軽減するためにSSMを最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:56:49Z) - Stable Anderson Acceleration for Deep Learning [0.0]
AndersonAcceleration (AA) は、DLモデルの反復訓練から生じるような固定点反復を高速化するように設計されている。
AAと適応的な移動平均手順を組み合わせることで、振動を円滑にし、より定期的な降下更新を行う。
論文 参考訳(メタデータ) (2021-10-26T14:52:16Z) - Tom: Leveraging trend of the observed gradients for faster convergence [0.0]
TomはAdamの新しい変種であり、ニューラルネットワークによって渡される損失の風景の勾配の傾向を考慮に入れている。
Tomは両方の精度でAdagrad、Adadelta、RMSProp、Adamを上回り、より早く収束する。
論文 参考訳(メタデータ) (2021-09-07T20:19:40Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - MaxVA: Fast Adaptation of Step Sizes by Maximizing Observed Variance of
Gradients [112.00379151834242]
本稿では,Adamにおける2乗勾配のランニング平均を重み付き平均に置き換える適応学習率の原理を提案する。
これにより、より高速な適応が可能となり、より望ましい経験的収束挙動がもたらされる。
論文 参考訳(メタデータ) (2020-06-21T21:47:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。