論文の概要: Error Bounds of Supervised Classification from Information-Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2406.04567v2
- Date: Thu, 27 Jun 2024 04:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:56:54.827141
- Title: Error Bounds of Supervised Classification from Information-Theoretic Perspective
- Title(参考訳): 情報理論からみた教師付き分類の誤り境界
- Authors: Binchuan Qi, Wei Gong, Li Li,
- Abstract要約: 誤差は, 分布の滑らかさとサンプルサイズの影響を受け, 予測されるリスクの上限となる。
実験による検証により, 導出理論境界と実用的予測リスクとの間に有意な正の相関が認められた。
- 参考スコア(独自算出の注目度): 5.281849820329249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There remains a list of unanswered research questions on deep learning (DL), including the remarkable generalization power of overparametrized neural networks, the efficient optimization performance despite the non-convexity, and the mechanisms behind flat minima in generalization. In this paper, we adopt an information-theoretic perspective to explore the theoretical foundations of supervised classification using deep neural networks (DNNs). Our analysis introduces the concepts of fitting error and model risk, which, together with generalization error, constitute an upper bound on the expected risk. We demonstrate that the generalization errors are bounded by the complexity, influenced by both the smoothness of distribution and the sample size. Consequently, task complexity serves as a reliable indicator of the dataset's quality, guiding the setting of regularization hyperparameters. Furthermore, the derived upper bound fitting error links the back-propagated gradient, Neural Tangent Kernel (NTK), and the model's parameter count with the fitting error. Utilizing the triangle inequality, we establish an upper bound on the expected risk. This bound offers valuable insights into the effects of overparameterization, non-convex optimization, and the flat minima in DNNs.Finally, empirical verification confirms a significant positive correlation between the derived theoretical bounds and the practical expected risk, confirming the practical relevance of the theoretical findings.
- Abstract(参考訳): ディープラーニング(DL)に関する未解決の研究質問のリストには、過度にパラメータ化されたニューラルネットワークの顕著な一般化力、非凸性にもかかわらず効率的な最適化性能、一般化におけるフラットミニマのメカニズムなどが含まれている。
本稿では,ディープニューラルネットワーク(DNN)を用いた教師付き分類の理論的基礎を探るため,情報理論的視点を採用する。
本分析では, 適応誤差とモデルリスクの概念を導入し, 一般化誤差とともに, 期待されるリスクの上限を構成する。
一般化誤差は, 分布の滑らかさとサンプルサイズの両方に影響され, 複雑さによって境界づけられていることを示す。
その結果、タスクの複雑さはデータセットの品質の信頼できる指標として機能し、正規化ハイパーパラメータの設定を導く。
さらに、導出された上界嵌合誤差は、バックプロパゲート勾配、ニューラルタンジェントカーネル(NTK)、およびモデルのパラメータ数と嵌合誤差をリンクする。
三角形の不等式を用いることで、期待されるリスクに上限を定めます。
このバウンダリは、DNNにおける過度パラメータ化、非凸最適化、および平坦なミニマの影響に関する貴重な知見を提供する。
関連論文リスト
- Generalization Error of the Tilted Empirical Risk [17.48212403081267]
教師付き統計学習アルゴリズムの一般化誤差(リスク)は、これまで見られなかったデータに対する予測能力を定量化する。
指数傾斜にインスパイアされたLi et al. (2021) は、機械学習アプリケーションのための非線形リスク指標として傾いた経験的リスクを提案した。
論文 参考訳(メタデータ) (2024-09-28T18:31:51Z) - Risk and cross validation in ridge regression with correlated samples [72.59731158970894]
我々は,データポイントが任意の相関関係を持つ場合,リッジ回帰のイン・オブ・サンプルリスクのトレーニング例を提供する。
さらに、テストポイントがトレーニングセットと非自明な相関を持ち、時系列予測で頻繁に発生するような場合まで分析を拡張します。
我々は多種多様な高次元データにまたがって理論を検証する。
論文 参考訳(メタデータ) (2024-08-08T17:27:29Z) - The Surprising Harmfulness of Benign Overfitting for Adversarial
Robustness [13.120373493503772]
根拠的真理そのものが敵の例に対して堅牢であるとしても、標準のアウト・オブ・サンプルのリスク目標の観点から見れば、明らかに過適合なモデルは良性である、という驚くべき結果が証明されます。
我々の発見は、実際に観察されたパズリング現象に関する理論的洞察を与え、真の標的関数(例えば、人間)は副次的攻撃に対して堅牢であり、一方、当初過適合のニューラルネットワークは、堅牢でないモデルに導かれる。
論文 参考訳(メタデータ) (2024-01-19T15:40:46Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - On the Importance of Gradient Norm in PAC-Bayesian Bounds [92.82627080794491]
対数ソボレフ不等式の縮約性を利用する新しい一般化法を提案する。
我々は、この新たな損失段階的ノルム項が異なるニューラルネットワークに与える影響を実証的に分析する。
論文 参考訳(メタデータ) (2022-10-12T12:49:20Z) - Optimizing the Performative Risk under Weak Convexity Assumptions [0.0]
性能予測において、予測モデルは将来のデータを生成する分布に影響を与える。
これまでの研究では、損失に関する一般的な条件とモデルパラメータから分布へのマッピングが特定されており、凸性はパフォーマンスリスクを意味する。
本稿では,反復最適化法における性能最小化リスク問題の回避性を犠牲にすることなく,これらの仮定を緩和する。
論文 参考訳(メタデータ) (2022-09-02T01:07:09Z) - Excess risk analysis for epistemic uncertainty with application to
variational inference [110.4676591819618]
我々は、未知の分布からデータが生成される頻繁なセッティングにおいて、新しいEU分析を提示する。
一般化能力と、予測分布の分散やエントロピーなど、広く使用されているEUの測定値との関係を示す。
本研究では,PAC-ベイジアン理論に基づく予測とEU評価性能を直接制御する新しい変分推論を提案する。
論文 参考訳(メタデータ) (2022-06-02T12:12:24Z) - Mitigating multiple descents: A model-agnostic framework for risk
monotonization [84.6382406922369]
クロスバリデーションに基づくリスクモノトナイズのための一般的なフレームワークを開発する。
本稿では,データ駆動方式であるゼロステップとワンステップの2つの手法を提案する。
論文 参考訳(メタデータ) (2022-05-25T17:41:40Z) - Empirical Risk Minimization with Relative Entropy Regularization:
Optimality and Sensitivity Analysis [7.953455469099826]
ERM-RER問題の解からの偏差に対する期待される経験的リスクの感度について検討した。
感度の期待値は、モデルとデータセット間のラウタム情報の正方根によって、最大で一定の係数まで上限づけられている。
論文 参考訳(メタデータ) (2022-02-09T10:55:14Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Minimum Excess Risk in Bayesian Learning [23.681494934015927]
最小超過リスク(mer)の定義と上限化により,生成モデルの下でベイズ学習の達成可能な最高の性能を解析する。
MERの定義は、ベイズ学習における不確実性の異なる概念を定義する原則的な方法を提供する。
論文 参考訳(メタデータ) (2020-12-29T17:41:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。