論文の概要: Overfitting has a limitation: a model-independent generalization error bound based on Rényi entropy
- arxiv url: http://arxiv.org/abs/2506.00182v1
- Date: Fri, 30 May 2025 19:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:32.486396
- Title: Overfitting has a limitation: a model-independent generalization error bound based on Rényi entropy
- Title(参考訳): オーバーフィッティングの極限:レニイエントロピーに基づくモデル独立な一般化誤差
- Authors: Atsushi Suzuki,
- Abstract要約: 本稿では,データヒストグラムのみにより出力が決定されるアルゴリズムに適用可能な一般化誤差に対するモデル独立上界を提案する。
このフレームワークは、データにランダムノイズを注入することで、一般化性能が著しく低下する現象について、直接的な説明を提供する。
我々は、ノー・フリー・ランチの定理をデータ分布依存に適応させ、R'enyiエントロピーに対応するデータの量が実際に学習の成功に不可欠であることを証明した。
- 参考スコア(独自算出の注目度): 5.011668820933222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Will further scaling up of machine learning models continue to bring success? A significant challenge in answering this question lies in understanding generalization error, which is the impact of overfitting. Understanding generalization error behavior of increasingly large-scale machine learning models remains a significant area of investigation, as conventional analyses often link error bounds to model complexity, failing to fully explain the success of extremely large architectures. This research introduces a novel perspective by establishing a model-independent upper bound for generalization error applicable to algorithms whose outputs are determined solely by the data's histogram, such as empirical risk minimization or gradient-based methods. Crucially, this bound is shown to depend only on the R\'enyi entropy of the data-generating distribution, suggesting that a small generalization error can be maintained even with arbitrarily large models, provided the data quantity is sufficient relative to this entropy. This framework offers a direct explanation for the phenomenon where generalization performance degrades significantly upon injecting random noise into data, where the performance degrade is attributed to the consequent increase in the data distribution's R\'enyi entropy. Furthermore, we adapt the no-free-lunch theorem to be data-distribution-dependent, demonstrating that an amount of data corresponding to the R\'enyi entropy is indeed essential for successful learning, thereby highlighting the tightness of our proposed generalization bound.
- Abstract(参考訳): 機械学習モデルのさらなるスケールアップは、引き続き成功をもたらすのだろうか?
この質問に答える上で重要な課題は、過適合の影響である一般化誤差を理解することである。
大規模機械学習モデルの一般化エラーの振る舞いを理解することは、従来の分析では、エラー境界とモデル複雑性をリンクすることが多く、非常に大規模なアーキテクチャの成功を完全に説明できないため、重要な研究領域である。
本研究では,経験的リスク最小化や勾配法などのデータヒストグラムによってのみ出力が決定されるアルゴリズムに適用可能な,一般化誤差のモデル非依存上界を確立することによって,新たな視点を示す。
重要なことに、この境界はデータ生成分布の R'enyi エントロピーにのみ依存することが示されており、このエントロピーに対してデータ量が十分であれば、任意の大モデルでも小さな一般化誤差を維持することができることを示唆している。
このフレームワークは、データにランダムノイズを注入することで一般化性能が著しく低下する現象を直接説明する。
さらに、自由ランチ定理をデータ分布依存に適応させ、R'enyiエントロピーに対応するデータの量が実際に学習に欠かせないことを証明し、提案した一般化境界の厳密性を強調する。
関連論文リスト
- Bigger Isn't Always Memorizing: Early Stopping Overparameterized Diffusion Models [51.03144354630136]
自然データ領域の一般化は、記憶の開始前に訓練中に徐々に達成される。
一般化対メモ化は、時間スケール間の競合として最もよく理解される。
この現象学は,確率論的文脈自由文法をランダムな規則で学習する拡散モデルにおいて復元されることを示す。
論文 参考訳(メタデータ) (2025-05-22T17:40:08Z) - eGAD! double descent is explained by Generalized Aliasing Decomposition [0.0]
本稿では,予測性能とモデル複雑性の関係を説明するため,GAD(Generalized Aliasing decomposition)と呼ぶ新しい分解法を提案する。
GADは予測誤差を3つの部分に分解する: 1) パラメータの数がデータポイントの数よりもはるかに小さい場合に支配するモデル不整合、2) データ不整合、3) パラメータの数がデータポイントの数よりはるかに大きいときに支配するデータ不整合、3) 一般化エイリアス。
論文 参考訳(メタデータ) (2024-08-15T17:49:24Z) - Parameter uncertainties for imperfect surrogate models in the low-noise regime [0.3069335774032178]
我々は、不特定、ほぼ決定論的シュロゲートモデルの一般化誤差を解析する。
遅れた一般化誤差を避けるために、後続分布が全ての訓練点をカバーする必要があることを示す。
これは、原子論的機械学習における1000次元データセットに適用する前に、モデル問題で実証される。
論文 参考訳(メタデータ) (2024-02-02T11:41:21Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Tradeoff of generalization error in unsupervised learning [0.6554326244334868]
一般に、教師なしの学習は、一般化誤差(GE)の2成分のトレードオフを示す
より複雑なモデルを使用することで、データエラーのコストでモデルエラーを減らすことができる。
我々の結果は、学習すべきデータがより複雑である場合、最適モデルはより複雑である傾向があることを示唆している。
論文 参考訳(メタデータ) (2023-03-10T05:50:17Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。
堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。
異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文 参考訳(メタデータ) (2020-07-21T08:18:06Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。