論文の概要: Does SGD Seek Flatness or Sharpness? An Exactly Solvable Model
- arxiv url: http://arxiv.org/abs/2602.05065v1
- Date: Wed, 04 Feb 2026 21:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.628102
- Title: Does SGD Seek Flatness or Sharpness? An Exactly Solvable Model
- Title(参考訳): SGDは平らさやシャープさを見出すか? 厳密な解決可能なモデル
- Authors: Yizhou Xu, Pierfrancesco Beneventano, Isaac Chuang, Liu Ziyin,
- Abstract要約: 我々は,訓練中の平ら化と研削動作の両方を示す解析的解決可能なモデルを同定し,解決する。
このモデルでは、SGDトレーニングは平坦さを優先しないが、最小限のゆらぎのみを優先する。
我々は、異なるモデルアーキテクチャで制御された設定におけるこの重要な洞察を再現する。
- 参考スコア(独自算出の注目度): 11.690400416575145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A large body of theory and empirical work hypothesizes a connection between the flatness of a neural network's loss landscape during training and its performance. However, there have been conceptually opposite pieces of evidence regarding when SGD prefers flatter or sharper solutions during training. In this work, we partially but causally clarify the flatness-seeking behavior of SGD by identifying and exactly solving an analytically solvable model that exhibits both flattening and sharpening behavior during training. In this model, the SGD training has no \textit{a priori} preference for flatness, but only a preference for minimal gradient fluctuations. This leads to the insight that, at least within this model, it is data distribution that uniquely determines the sharpness at convergence, and that a flat minimum is preferred if and only if the noise in the labels is isotropic across all output dimensions. When the noise in the labels is anisotropic, the model instead prefers sharpness and can converge to an arbitrarily sharp solution, depending on the imbalance in the noise in the labels spectrum. We reproduce this key insight in controlled settings with different model architectures such as MLP, RNN, and transformers.
- Abstract(参考訳): 理論と経験的な作業の大きなボディは、トレーニング中のニューラルネットワークの損失ランドスケープの平坦性と、そのパフォーマンスの間の接続を仮説化します。
しかしながら、SGDがトレーニング中により平坦な解や鋭い解を好むかどうかについては、概念的に逆の証拠がある。
本研究では,SGDの平坦度探索挙動を,トレーニング中の平坦度と研削挙動の両方を示す解析的解法モデルを特定し,正確に解明することにより,部分的に,因果的に明らかにする。
このモデルでは、SGD トレーニングは平坦性に対する \textit{a priori} の選好を持たないが、最小の勾配変動に対する選好のみである。
このことは、少なくともこのモデル内では、収束時のシャープネスを一意に決定するデータ分布であり、ラベル内のノイズが全ての出力次元にわたって等方的である場合に限り、平坦な最小値が好ましいという洞察に繋がる。
ラベル内のノイズが異方性である場合、モデルはシャープネスを好み、ラベルスペクトルのノイズの不均衡に応じて任意にシャープな解に収束する。
MLP, RNN, 変圧器などの異なるモデルアーキテクチャを用いて, 制御設定におけるこの重要な洞察を再現する。
関連論文リスト
- Adapt in the Wild: Test-Time Entropy Minimization with Sharpness and Feature Regularization [85.50560211492898]
テスト時適応(TTA)は、テストデータが分散シフトが混在している場合、モデルの性能を改善または損なう可能性がある。
これはしばしば、既存のTTAメソッドが現実世界にデプロイされるのを防ぐ重要な障害である。
両面からTTAを安定化させるため,SARと呼ばれる鋭く信頼性の高いエントロピー最小化手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:03:00Z) - Classifying Long-tailed and Label-noise Data via Disentangling and Unlearning [58.052712054684946]
実世界のデータセットでは、長い尾の分布とノイズラベルの課題はしばしば共存する。
本稿では,長い尾とラベルノイズデータに対するディスタングルとアンラーニングという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-14T13:58:27Z) - Simplicity Bias via Global Convergence of Sharpness Minimization [43.658859631741024]
ラベルノイズSGDは、2層ネットワークにおける損失ゼロのモデル多様体のシャープネスを常に最小化することを示す。
また、ゼロ損失多様体上の近似定常点における損失のヘッセンのトレースの新たな性質も見いだす。
論文 参考訳(メタデータ) (2024-10-21T18:10:37Z) - An extended asymmetric sigmoid with Perceptron (SIGTRON) for imbalanced linear classification [0.0]
本稿では、SIGTRONと呼ばれる新しいパラメータ化シグモノイドと、SIGTRON不均衡分類(SIC)モデルと呼ばれる同伴凸モデルを提案する。
従来の$pi$重み付きコスト依存学習モデルとは対照的に、SICモデルは損失関数に外部の$pi$重みを持たない。
提案したSICモデルは,データセットのバリエーションに適応可能であることを示す。
論文 参考訳(メタデータ) (2023-12-26T13:14:17Z) - All Points Matter: Entropy-Regularized Distribution Alignment for
Weakly-supervised 3D Segmentation [67.30502812804271]
擬似ラベルは、弱い教師付き3Dセグメンテーションタスクに広く使われており、学習に使えるのはスパース・グラウンド・トラス・ラベルのみである。
本稿では,生成した擬似ラベルを正規化し,擬似ラベルとモデル予測とのギャップを効果的に狭めるための新しい学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-25T08:19:31Z) - Robust Outlier Rejection for 3D Registration with Variational Bayes [70.98659381852787]
我々は、ロバストアライメントのための新しい変分非局所ネットワークベース外乱除去フレームワークを開発した。
そこで本稿では, 投票に基づく不整合探索手法を提案し, 変換推定のための高品質な仮説的不整合をクラスタリングする。
論文 参考訳(メタデータ) (2023-04-04T03:48:56Z) - Doubly Stochastic Models: Learning with Unbiased Label Noises and
Inference Stability [85.1044381834036]
勾配降下のミニバッチサンプリング設定におけるラベル雑音の暗黙的正則化効果について検討した。
そのような暗黙的正則化器は、パラメータの摂動に対してモデル出力を安定化できる収束点を好んでいる。
我々の研究は、SGDをオルンシュタイン-ウレンベック類似の過程とはみなせず、近似の収束によってより一般的な結果を得る。
論文 参考訳(メタデータ) (2023-04-01T14:09:07Z) - A Data-driven Loss Weighting Scheme across Heterogeneous Tasks for Image Denoising [67.02529586335473]
変分分解モデルでは、データ忠実度項の重みはノイズ除去能力を高める役割を担っている。
本研究では,これらの問題に対処するデータ駆動型損失重み付け手法を提案する。
DLWの顕著な性能を検証し,様々な変分復調モデルの複素雑音処理能力の向上に寄与することを示した。
論文 参考訳(メタデータ) (2022-12-09T03:28:07Z) - When does SGD favor flat minima? A quantitative characterization via
linear stability [7.252584656056866]
勾配降下(SGD)は平らなミニマを好む。
線形ネットワークとランダム特徴モデル(RFM)に対するSGDノイズの有効保持特性
論文 参考訳(メタデータ) (2022-07-06T12:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。