論文の概要: Flatness and Generalization: Learning Multi-Index Models with Homogeneous Neural Networks
- arxiv url: http://arxiv.org/abs/2606.04429v1
- Date: Wed, 03 Jun 2026 04:20:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.533316
- Title: Flatness and Generalization: Learning Multi-Index Models with Homogeneous Neural Networks
- Title(参考訳): 平坦性と一般化:均質ニューラルネットワークを用いた多次元モデル学習
- Authors: Harsh Vardhan, Hossein Taheri, Arya Mazumdar,
- Abstract要約: 平坦性を最も平坦に近づけることができない非一般化補間器の自然なクラスが存在することを示す。
単一インデックスモデルの和から生成されるデータに対して、近似誤差とラベルノイズが低い場合、最も平坦な補間器は人口損失が少ないことを示す。
- 参考スコア(独自算出の注目度): 23.082880515604216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A common heuristic used to explain the generalization of first-order gradient methods on non-convex neural networks is that "flat interpolators generalize well" (Hochreiter and Schmidhuber, 1994; Keskar et al., 2017), where flatness can be measured by the trace of the Hessian of the empirical loss. However, Dinh et al. 2017) showed that, using symmetry of the network that can change flatness while keeping the population and empirical losses unchanged, any interpolator can be made sharper or flatter. This result makes the earlier heuristic statement vacuous. In this paper, we show that for learning an unknown multi-index model with $2$-layer non-convex homogeneous neural networks, there is a connection between flatness and generalization, despite the existence of symmetries. This connection pertains to the "flattest" interpolators, i.e., the interpolators that have orderwise minimum flatness among all interpolators. First, we show that there exists a natural class of non-generalizing interpolators whose flatness cannot be made closer to the flattest possible, even using symmetries. Second, we show that for data generated by a sum of single-index models, if the approximation error and label noise are low, any flattest interpolator achieves small population loss, i.e., the flattest interpolators always generalize. This establishes a direct link between flatness and generalization which applies to a large class of activations and realistic data distributions.
- Abstract(参考訳): 非凸ニューラルネットワーク上の一階勾配法の一般化を説明するのに使用される一般的なヒューリスティックは、「平坦な補間器はよく一般化する」(Hochreiter and Schmidhuber, 1994; Keskar et al , 2017)というものである。
しかし、Dinh et al 2017) は、ネットワークの対称性を用いて、人口と経験的損失を一定に保ちながら平坦性を変化させることができ、任意の補間器をより鋭くあるいはより平坦にすることができることを示した。
この結果、初期のヒューリスティックな発言は空白となった。
本稿では, 2 層非凸同次ニューラルネットワークを用いた未知のマルチインデックスモデルを学習するには, 対称性が存在するにもかかわらず, 平坦性と一般化の関連性が存在することを示す。
この接続は「最も平坦な」補間子、すなわち全ての補間子の中で順序的に最小の平坦性を持つ補間子に関係している。
まず, 対称性を用いても, 平坦性を最も平坦に近づけることができない非一般化補間器の自然なクラスが存在することを示す。
第2に、単一インデックスモデルの和によって生成されたデータに対して、近似誤差とラベルノイズが低い場合、最も平坦な補間器は小さな人口減少、すなわち、最も平坦な補間器は常に一般化されることを示す。
これにより、フラットネスと一般化の直接的な結びつきが確立され、これは大量のアクティベーションと現実的なデータ分布に適用される。
関連論文リスト
- Flatness After All? [6.977444416330261]
我々は、ヘッセンの柔らかいランク測度を用いて平坦度を測定することで一般化を評価することができると論じる。
非校正モデルでは、ソフトランクに基づく平坦度尺度をよく知られた竹内情報基準に接続する。
論文 参考訳(メタデータ) (2025-06-21T20:33:36Z) - A U-turn on Double Descent: Rethinking Parameter Counting in Statistical
Learning [68.76846801719095]
二重降下がいつどこで起こるのかを正確に示し、その位置が本質的に閾値 p=n に結び付けられていないことを示す。
これは二重降下と統計的直観の間の緊張を解消する。
論文 参考訳(メタデータ) (2023-10-29T12:05:39Z) - FAM: Relative Flatness Aware Minimization [5.132856559837775]
平坦性の最適化は1994年に Hochreiter と Schmidthuber によって提案された。
最近の理論的研究は、特定の相対的平坦度測度が一般化に結びつくことを示唆している。
この相対平坦性に基づいて正規化器を導出し、計算が容易で、高速で、効率的で、任意の損失関数を扱う。
論文 参考訳(メタデータ) (2023-07-05T14:48:24Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Entropic gradient descent algorithms and wide flat minima [6.485776570966397]
広い平坦領域に属する最小値に対応するベイズ最適点推定器が存在することを解析的に示す。
解析を広範囲な数値検証により深層学習シナリオに拡張する。
計算が容易な平坦度測定は、テスト精度と明確な相関を示す。
論文 参考訳(メタデータ) (2020-06-14T13:22:19Z) - Residual Correlation in Graph Neural Network Regression [39.54530450932135]
我々は条件付き独立仮定が予測力を著しく制限していることを示します。
この問題を解釈可能かつ効率的なフレームワークで解決する。
我々のフレームワークは、競合するベースラインよりもかなり高い精度を実現している。
論文 参考訳(メタデータ) (2020-02-19T16:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。