論文の概要: Fast Generalization after Interpolation via Critically Damped Momentum Optimization
- arxiv url: http://arxiv.org/abs/2606.01521v1
- Date: Mon, 01 Jun 2026 00:54:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.762948
- Title: Fast Generalization after Interpolation via Critically Damped Momentum Optimization
- Title(参考訳): 臨界減衰モーメント最適化による補間後の高速一般化
- Authors: Luca Muscarnera, Silas Ruhrberg Estévez, Yuanzhang Xiao, Mihaela Van der Schaar,
- Abstract要約: GROKtimizerは低ノルム補間解を選択するための自然な解であることを示す。
GROKtimizer は古典的な勾配勾配よりも2次的なスピードアップを提供し、一階一般化の中で証明可能な最適性を提供する。
我々は,高品位一般化モデルの構築における補間後のダイナミクスの重要性を強調して,フラット・ミニマ仮説を用いて解析を行った。
- 参考スコア(独自算出の注目度): 44.00737032715565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A central problem in machine learning is that models can achieve near-perfect training performance while generalizing substantially less well to unseen examples. This gap is especially acute in high-dimensional, low-sample regimes, where many interpolating solutions exist and optimization must implicitly select among minima with different generalization properties. Following recent theoretical advances on optimization dynamics near the interpolation threshold, we note that the two-regime structure of risk minimization, with loss minimization followed by complexity minimization, motivates a biphasic optimization schedule. We thus theoretically demonstrate that GROKtimizer, a biphasic strategy that combines rapid convergence to interpolation with Critically Damped Momentum (CDM)-based post-interpolation norm minimization, offers a natural solution for selecting low-norm interpolating solutions. Under a local quadratic model of the post-interpolation basin, GROKtimizer provides a quadratic speedup over classical gradient descent, with provable optimality among first-order optimizers. To showcase the applicability of our method, we evaluate GROKtimizer on several synthetic benchmarks common in the classical grokking literature and on various real-world datasets. Finally, we reconcile our findings with the flat-minima hypothesis, highlighting the importance of post-interpolation dynamics in the construction of high-quality, generalizing models.
- Abstract(参考訳): 機械学習における中心的な問題は、モデルがほとんど完璧に近いトレーニング性能を達成できると同時に、目に見えない例に対してかなりうまく一般化できないことである。
このギャップは、多くの補間解が存在し、最適化は、異なる一般化特性を持つミニマの中から暗黙的に選択する必要がある、高次元、低サンプルな状態において特に急性である。
補間しきい値付近の最適化力学の最近の理論的進歩に続いて、損失最小化と複雑性最小化を伴い、二相最適化スケジュールの動機となるリスク最小化の2つのレジム構造について述べる。
そこで理論的には、高速収束と補間と臨界減衰モメンタム(CDM)に基づく補間後ノルム最小化を組み合わせた二相的戦略であるGROKtimizerが、低ノルム補間解を選択する自然な解であることを示す。
補間後の盆地の局所的な二次モデルの下では、GROKtimizerは古典的な勾配勾配よりも2次的なスピードアップを提供する。
本手法の適用性を示すため,古典的なグルーキング文学や様々な実世界のデータセットに共通するいくつかの合成ベンチマークにおいて,GROKtimizerを評価した。
最後に,実験結果とフラットミニマ仮説を照合し,高品質な一般化モデルの構築における補間後のダイナミクスの重要性を強調した。
関連論文リスト
- Towards a Unified Analysis of Neural Networks in Nonparametric Instrumental Variable Regression: Optimization and Generalization [66.08522228989634]
非パラメトリックインスツルメンタル変数回帰(NPIV)における2段階最小二乗法(2SLS)アプローチのためのニューラルネットワークの最初の大域収束結果を確立する。
これは平均場ランゲヴィンダイナミクス(MFLD)を通して持ち上げられた視点を採用することで達成される。
論文 参考訳(メタデータ) (2025-11-18T17:51:17Z) - Differentially Private Bilevel Optimization: Efficient Algorithms with Near-Optimal Rates [23.143960802555714]
両レベル最適化について検討し、一方の最適化問題を別の内部にネストする。
個人のプライバシーに関する懸念から、我々は新しい二段階アルゴリズムを開発した。
我々の境界は内部の問題の焦点に依存しない。
論文 参考訳(メタデータ) (2025-06-15T23:21:36Z) - Scalable Min-Max Optimization via Primal-Dual Exact Pareto Optimization [66.51747366239299]
拡張ラグランジアンに基づくmin-max問題のスムーズな変種を提案する。
提案アルゴリズムは, 段階的戦略よりも目的数で拡張性が高い。
論文 参考訳(メタデータ) (2025-03-16T11:05:51Z) - Low-Rank Extragradient Methods for Scalable Semidefinite Optimization [17.384717824118255]
この問題が低ランクの解を許容する高次元かつ高可算な設定に焦点をあてる。
これらの条件下では、よく知られた過次法が制約付き最適化問題の解に収束することを示す理論的結果がいくつか提示される。
論文 参考訳(メタデータ) (2024-02-14T10:48:00Z) - Nesterov Meets Optimism: Rate-Optimal Separable Minimax Optimization [108.35402316802765]
本稿では,新しい一階最適化アルゴリズムであるAcceleratedGradient-OptimisticGradient (AG-OG) Ascentを提案する。
我々はAG-OGが様々な設定に対して最適収束率(定数まで)を達成することを示す。
アルゴリズムを拡張して設定を拡張し、bi-SC-SCとbi-C-SCの両方で最適な収束率を達成する。
論文 参考訳(メタデータ) (2022-10-31T17:59:29Z) - Faster Algorithm and Sharper Analysis for Constrained Markov Decision
Process [56.55075925645864]
制約付き意思決定プロセス (CMDP) の問題点について検討し, エージェントは, 複数の制約を条件として, 期待される累積割引報酬を最大化することを目的とする。
新しいユーティリティ・デュアル凸法は、正規化ポリシー、双対正則化、ネステロフの勾配降下双対という3つの要素の新たな統合によって提案される。
これは、凸制約を受ける全ての複雑性最適化に対して、非凸CMDP問題が$mathcal O (1/epsilon)$の低い境界に達する最初の実演である。
論文 参考訳(メタデータ) (2021-10-20T02:57:21Z) - Efficient Methods for Structured Nonconvex-Nonconcave Min-Max
Optimization [98.0595480384208]
定常点に収束する一般化外空間を提案する。
このアルゴリズムは一般の$p$ノルド空間だけでなく、一般の$p$次元ベクトル空間にも適用される。
論文 参考訳(メタデータ) (2020-10-31T21:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。