論文の概要: Flat Minima and Generalization: Insights from Stochastic Convex Optimization
- arxiv url: http://arxiv.org/abs/2511.03548v1
- Date: Wed, 05 Nov 2025 15:31:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.463092
- Title: Flat Minima and Generalization: Insights from Stochastic Convex Optimization
- Title(参考訳): フラットミニマと一般化:確率凸最適化からの洞察
- Authors: Matan Schliserman, Shira Vansover-Hager, Tomer Koren,
- Abstract要約: 学習アルゴリズムは平らなミニマに収束するため、実際に成功している。
我々は,平らな経験的ミニマは自明な$Omega(1)$集団リスクを引き起こし,鋭いミニマは最適に一般化することを示した。
- 参考スコア(独自算出の注目度): 22.768090791258242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the generalization behavior of learning algorithms is a central goal of learning theory. A recently emerging explanation is that learning algorithms are successful in practice because they converge to flat minima, which have been consistently associated with improved generalization performance. In this work, we study the link between flat minima and generalization in the canonical setting of stochastic convex optimization with a non-negative, $\beta$-smooth objective. Our first finding is that, even in this fundamental and well-studied setting, flat empirical minima may incur trivial $\Omega(1)$ population risk while sharp minima generalizes optimally. Then, we show that this poor generalization behavior extends to two natural ''sharpness-aware'' algorithms originally proposed by Foret et al. (2021), designed to bias optimization toward flat solutions: Sharpness-Aware Gradient Descent (SA-GD) and Sharpness-Aware Minimization (SAM). For SA-GD, which performs gradient steps on the maximal loss in a predefined neighborhood, we prove that while it successfully converges to a flat minimum at a fast rate, the population risk of the solution can still be as large as $\Omega(1)$, indicating that even flat minima found algorithmically using a sharpness-aware gradient method might generalize poorly. For SAM, a computationally efficient approximation of SA-GD based on normalized ascent steps, we show that although it minimizes the empirical loss, it may converge to a sharp minimum and also incur population risk $\Omega(1)$. Finally, we establish population risk upper bounds for both SA-GD and SAM using algorithmic stability techniques.
- Abstract(参考訳): 学習アルゴリズムの一般化行動を理解することは学習理論の中心的な目標である。
最近出現した説明では、学習アルゴリズムは平らなミニマに収束し、常に一般化性能の改善に結びついているため、実際に成功している。
本研究では、非負の$\beta$-smooth目的を持つ確率凸最適化の標準設定における平坦なミニマと一般化の関係について検討する。
我々の最初の発見は、この基本的でよく研究された状況でも、平坦な経験的ミニマは自明な$\Omega(1)$の集団リスクを引き起こし、鋭いミニマは最適に一般化するということである。
そして、この不適切な一般化動作は、もともとForetらによって提案された2つの自然な「シャープネス認識」アルゴリズム(2021年)に拡張され、平坦な解に対して最適化されるシャープネス認識勾配(SA-GD)とシャープネス認識最小化(SAM)に拡張されることを示す。
事前定義された地区における最大損失の勾配ステップを実行するSA-GDの場合, 解の集団リスクは$\Omega(1)$程度であり, 急激な勾配法を用いてアルゴリズム的に発見された平坦なミニマでさえ一般化が不十分であることを示す。
SAM の場合,SA-GD の正規化段階に基づく計算効率のよい近似法として,経験的損失を最小限に抑えつつも,急激な最小値に収束し,人口リスク$\Omega(1)$ に収束することを示した。
最後に,アルゴリズム的安定性手法を用いて,SA-GDとSAMの双方の集団リスク上限を確立する。
関連論文リスト
- Zeroth-Order Optimization Finds Flat Minima [51.41529512093436]
標準二点推定器によるゼロ階最適化は、ヘッセンの小さなトレースを持つ解を好むことを示す。
さらに、凸関数と十分に滑らかな関数に対する近似平坦なミニマに対して、ゼロ階最適化の収束率を提供する。
論文 参考訳(メタデータ) (2025-06-05T17:59:09Z) - Riemannian stochastic optimization methods avoid strict saddle points [68.80251170757647]
研究中のポリシーは、確率 1 の厳密なサドル点/部分多様体を避けていることを示す。
この結果は、アルゴリズムの極限状態が局所最小値にしかならないことを示すため、重要な正当性チェックを提供する。
論文 参考訳(メタデータ) (2023-11-04T11:12:24Z) - How to escape sharp minima with random perturbations [48.095392390925745]
平らなミニマの概念とそれらを見つける複雑さについて研究する。
一般的なコスト関数に対して、近似平坦な局所最小値を求める勾配に基づくアルゴリズムについて論じる。
コスト関数がトレーニングデータよりも経験的リスクであるような環境では、シャープネス認識最小化と呼ばれる最近提案された実用的なアルゴリズムにインスパイアされたより高速なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:12:33Z) - Sharpness-Aware Gradient Matching for Domain Generalization [84.14789746460197]
ドメイン一般化(DG)の目標は、ソースドメインから他の見えないドメインに学習したモデルの一般化能力を強化することである。
最近開発されたシャープネス・アウェア最小化(SAM)法は、損失景観のシャープネス測定を最小化することで、この目標を達成することを目的としている。
モデルが小さな損失を伴って平らな最小値に収束することを保証するための2つの条件と,シャープネス・アウェア・グラディエントマッチング(SAGM)というアルゴリズムを提案する。
提案手法は5つのDGベンチマークにおける最先端の手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2023-03-18T07:25:12Z) - Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization [33.50116027503244]
ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-03-03T16:58:53Z) - GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization
for Improved Generalization [22.53923556656022]
Sharpness-Aware Minimization (SAM)アルゴリズムは、視覚タスクにおける最先端の一般化能力を示している。
SAMは、特にRNNのような劇的な変化を持つモデルにおいて、SAMを自然言語タスクに含めるのが困難である。
本稿では,GA-SAM(Adaptive Sharpness-Aware Minimization)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-13T10:44:10Z) - Train simultaneously, generalize better: Stability of gradient-based
minimax learners [12.691047660244331]
コンベックス・コンベブと非コンベックス・ミニマックス・セッティングの両方において,訓練されたミニマックスモデルの性能において重要な役割を担っている。
学習したミニマックスモデルの一般化における最適化アルゴリズムの役割を示す数値的な結果について議論する。
論文 参考訳(メタデータ) (2020-10-23T17:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。