論文の概要: Sharp Minima Can Generalize: A Loss Landscape Perspective On Data
- arxiv url: http://arxiv.org/abs/2511.04808v1
- Date: Thu, 06 Nov 2025 21:01:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.590328
- Title: Sharp Minima Can Generalize: A Loss Landscape Perspective On Data
- Title(参考訳): シャープ・ミニマが一般化:データにおけるランドスケープの展望を損なう
- Authors: Raymond Fan, Bryce Sandlund, Lin Myat Ko,
- Abstract要約: この図は、一般化における大きなデータセットの役割を説明するものではない。
各種のトレーニングデータに基づくミニマボリュームの測定では、十分に一般化するシャープなミニマが現れるが、その小さなボリュームのため見つからない。
- 参考スコア(独自算出の注目度): 0.1399948157377307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The volume hypothesis suggests deep learning is effective because it is likely to find flat minima due to their large volumes, and flat minima generalize well. This picture does not explain the role of large datasets in generalization. Measuring minima volumes under varying amounts of training data reveals sharp minima which generalize well exist, but are unlikely to be found due to their small volumes. Increasing data changes the loss landscape, such that previously small generalizing minima become (relatively) large.
- Abstract(参考訳): ボリューム仮説は, 深層学習が有効であることを示している。なぜなら, 大量のため平坦なミニマが見つかる可能性が高く, 平坦なミニマがよく一般化されるからである。
この図は、一般化における大きなデータセットの役割を説明するものではない。
各種のトレーニングデータに基づくミニマボリュームの測定では、十分に一般化するシャープなミニマが現れるが、その小さなボリュームのため見つからない。
データの増大は、以前小さく一般化されたミニマが(相対的に)大きくなるようなロスランドスケープを変化させる。
関連論文リスト
- Compute-Optimal LLMs Provably Generalize Better With Scale [102.29926217670926]
我々は,大規模言語モデル(LLM)の事前学習目標に基づく一般化境界を開発する。
損失関数の分散を考慮し, 既存の境界を緩める, 完全経験的フリードマン型マルティンゲール濃度を導入する。
我々は一般化ギャップのスケーリング法則を作成し、その境界はスケールによって予測的に強くなる。
論文 参考訳(メタデータ) (2025-04-21T16:26:56Z) - Non-Vacuous Generalization Bounds for Large Language Models [78.42762571499061]
事前訓練された大言語モデルに対して、最初の空でない一般化境界を提供する。
より大きいモデルはより優れた一般化バウンダリを持ち、より小さなモデルよりも圧縮可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T17:58:42Z) - Gradient Norm Aware Minimization Seeks First-Order Flatness and Improves
Generalization [33.50116027503244]
ゼロ階平坦性は低勾配誤差で最小値の判別に不十分であることを示す。
また,全方向にわたって一様に曲率の小さい最小値を求めるため,GAM(Gradient norm Aware Minimization)と呼ばれる新しいトレーニング手順を提案する。
論文 参考訳(メタデータ) (2023-03-03T16:58:53Z) - Unveiling the structure of wide flat minima in neural networks [0.46664938579243564]
ディープラーニングは、科学全体にわたるネットワークの応用の可能性を明らかにしている。
ディープラーニングの成功は、科学全体にわたるネットワークの適用可能性を明らかにしている。
論文 参考訳(メタデータ) (2021-07-02T16:04:57Z) - From Local Structures to Size Generalization in Graph Neural Networks [53.3202754533658]
グラフニューラルネットワーク(GNN)は、さまざまなサイズのグラフを処理することができる。
特に小さなグラフから大きなグラフまで、サイズをまたいで一般化する能力は、まだよく理解されていない。
論文 参考訳(メタデータ) (2020-10-17T19:36:54Z) - A Diffusion Theory For Deep Learning Dynamics: Stochastic Gradient
Descent Exponentially Favors Flat Minima [91.11332770406007]
グラディエントDescent (SGD) は, 鋭いミニマよりも指数関数的に平坦なミニマを好んでいる。
また、小さな学習率か大規模なバッチトレーニングのどちらかが、ミニマから逃れるために指数関数的に多くのイテレーションを必要とすることも明らかにした。
論文 参考訳(メタデータ) (2020-02-10T02:04:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。