論文の概要: Generalization Below the Edge of Stability: The Role of Data Geometry
- arxiv url: http://arxiv.org/abs/2510.18120v1
- Date: Mon, 20 Oct 2025 21:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.637816
- Title: Generalization Below the Edge of Stability: The Role of Data Geometry
- Title(参考訳): 安定性の限界より下の一般化:データ幾何学の役割
- Authors: Tongtong Liang, Alexander Cloninger, Rahul Parhi, Yu-Xiang Wang,
- Abstract要約: 安定性の限界以下で訓練されたReLUネットワークにおいて,データ幾何が一般化を制御するかを示す。
低次元球の混合に支持されるデータ分布について、本質的な次元に確実に適応する一般化境界を導出する。
文献に現れる異種の経験的所見を総合的に検討した。
- 参考スコア(独自算出の注目度): 60.147710896851045
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding generalization in overparameterized neural networks hinges on the interplay between the data geometry, neural architecture, and training dynamics. In this paper, we theoretically explore how data geometry controls this implicit bias. This paper presents theoretical results for overparameterized two-layer ReLU networks trained below the edge of stability. First, for data distributions supported on a mixture of low-dimensional balls, we derive generalization bounds that provably adapt to the intrinsic dimension. Second, for a family of isotropic distributions that vary in how strongly probability mass concentrates toward the unit sphere, we derive a spectrum of bounds showing that rates deteriorate as the mass concentrates toward the sphere. These results instantiate a unifying principle: When the data is harder to "shatter" with respect to the activation thresholds of the ReLU neurons, gradient descent tends to learn representations that capture shared patterns and thus finds solutions that generalize well. On the other hand, for data that is easily shattered (e.g., data supported on the sphere) gradient descent favors memorization. Our theoretical results consolidate disparate empirical findings that have appeared in the literature.
- Abstract(参考訳): 過パラメータ化されたニューラルネットワークの一般化を理解することは、データジオメトリ、ニューラルアーキテクチャ、トレーニングダイナミクス間の相互作用に依存する。
本稿では,データ幾何がこの暗黙バイアスをどのように制御するかを理論的に検討する。
本稿では、安定性の限界以下で訓練された過パラメータ化された2層ReLUネットワークに関する理論的結果を示す。
まず、低次元球の混合に支持されるデータ分布について、本質的な次元に確実に適応する一般化境界を導出する。
第二に、質量が単位球に向かってどれだけ強く集中するかが異なる等方分布の族に対して、質量が球に向かって集中するにつれて速度が劣化することを示す境界のスペクトルを導出する。
データがReLUニューロンのアクティベーションしきい値に関して「揺らぐ」のが難しい場合、勾配降下は共有パターンをキャプチャする表現を学習し、それによって一般化する解を見つける傾向にある。
一方、破砕しやすいデータ(例えば球面に支持されたデータ)の場合、勾配降下は記憶を優先する。
文献に現れる異種の経験的発見を理論的にまとめる。
関連論文リスト
- Low Rank Gradients and Where to Find Them [25.107551106396958]
バルクを異方性と不規則にすることができるスパイクされたデータモデルを考える。
入力重みに対する勾配は, ほぼ低ランクであることを示す。
また、重み劣化、入力雑音、ジャコビアン罰則などの標準正規化器もこれらの成分を選択的に変調することを示した。
論文 参考訳(メタデータ) (2025-10-01T16:20:19Z) - Losing dimensions: Geometric memorization in generative diffusion [10.573546162574235]
生成拡散における記憶理論を多様体支援データに拡張する。
理論的および実験的な結果から,異なる臨界時間における記憶効果とデータセットサイズにより,異なる部分空間が失われることが示唆された。
おそらく反故意に、ある条件下では、高い分散の部分空間は、暗記効果によって最初に失われることが分かる。
論文 参考訳(メタデータ) (2024-10-11T11:31:20Z) - Skews in the Phenomenon Space Hinder Generalization in Text-to-Image Generation [59.138470433237615]
本稿では,関係学習用データセットの言語的スキューと視覚的スクリューの両方を定量化する統計指標を提案する。
系統的に制御されたメトリクスは、一般化性能を強く予測できることを示す。
この研究は、データの多様性やバランスを向上し、絶対的なサイズをスケールアップするための重要な方向を示します。
論文 参考訳(メタデータ) (2024-03-25T03:18:39Z) - Gradient-Based Feature Learning under Structured Data [57.76552698981579]
異方性設定では、一般的に使用される球面勾配力学は真の方向を回復できないことがある。
バッチ正規化を連想させる適切な重み正規化は、この問題を軽減することができることを示す。
特に、スパイクモデルの下では、勾配に基づくトレーニングのサンプルの複雑さは情報指数とは独立にできる。
論文 参考訳(メタデータ) (2023-09-07T16:55:50Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Uniform Convergence, Adversarial Spheres and a Simple Remedy [40.44709296304123]
これまでの研究は、統一収束の一般的な枠組みと、ニューラルネットワークの一般化を説明する能力に疑問を投げかけてきた。
我々は、無限大モデルのレンズを通して、以前に研究されたデータセットの広範な理論的検討を行う。
我々は、ニューラルタンジェントカーネル(NTK)も同じ現象に苦しむことを証明し、その起源を明らかにします。
論文 参考訳(メタデータ) (2021-05-07T20:23:01Z) - Coherent Gradients: An Approach to Understanding Generalization in
Gradient Descent-based Optimization [15.2292571922932]
本稿では,勾配降下のダイナミクスに関する仮説に基づいて,この問題に答えるアプローチを提案する。
トレーニング中のネットワークパラメータの変更は、(局所的に)同時に多くのサンプルに役立つものに偏っていることを示す。
論文 参考訳(メタデータ) (2020-02-25T03:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。