論文の概要: Error Bounds of Supervised Classification from Information-Theoretic Perspective
- arxiv url: http://arxiv.org/abs/2406.04567v2
- Date: Thu, 27 Jun 2024 04:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 18:56:54.827141
- Title: Error Bounds of Supervised Classification from Information-Theoretic Perspective
- Title(参考訳): 情報理論からみた教師付き分類の誤り境界
- Authors: Binchuan Qi, Wei Gong, Li Li,
- Abstract要約: 誤差は, 分布の滑らかさとサンプルサイズの影響を受け, 予測されるリスクの上限となる。
実験による検証により, 導出理論境界と実用的予測リスクとの間に有意な正の相関が認められた。
- 参考スコア(独自算出の注目度): 5.281849820329249
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There remains a list of unanswered research questions on deep learning (DL), including the remarkable generalization power of overparametrized neural networks, the efficient optimization performance despite the non-convexity, and the mechanisms behind flat minima in generalization. In this paper, we adopt an information-theoretic perspective to explore the theoretical foundations of supervised classification using deep neural networks (DNNs). Our analysis introduces the concepts of fitting error and model risk, which, together with generalization error, constitute an upper bound on the expected risk. We demonstrate that the generalization errors are bounded by the complexity, influenced by both the smoothness of distribution and the sample size. Consequently, task complexity serves as a reliable indicator of the dataset's quality, guiding the setting of regularization hyperparameters. Furthermore, the derived upper bound fitting error links the back-propagated gradient, Neural Tangent Kernel (NTK), and the model's parameter count with the fitting error. Utilizing the triangle inequality, we establish an upper bound on the expected risk. This bound offers valuable insights into the effects of overparameterization, non-convex optimization, and the flat minima in DNNs.Finally, empirical verification confirms a significant positive correlation between the derived theoretical bounds and the practical expected risk, confirming the practical relevance of the theoretical findings.
- Abstract(参考訳): ディープラーニング(DL)に関する未解決の研究質問のリストには、過度にパラメータ化されたニューラルネットワークの顕著な一般化力、非凸性にもかかわらず効率的な最適化性能、一般化におけるフラットミニマのメカニズムなどが含まれている。
本稿では,ディープニューラルネットワーク(DNN)を用いた教師付き分類の理論的基礎を探るため,情報理論的視点を採用する。
本分析では, 適応誤差とモデルリスクの概念を導入し, 一般化誤差とともに, 期待されるリスクの上限を構成する。
一般化誤差は, 分布の滑らかさとサンプルサイズの両方に影響され, 複雑さによって境界づけられていることを示す。
その結果、タスクの複雑さはデータセットの品質の信頼できる指標として機能し、正規化ハイパーパラメータの設定を導く。
さらに、導出された上界嵌合誤差は、バックプロパゲート勾配、ニューラルタンジェントカーネル(NTK)、およびモデルのパラメータ数と嵌合誤差をリンクする。
三角形の不等式を用いることで、期待されるリスクに上限を定めます。
このバウンダリは、DNNにおける過度パラメータ化、非凸最適化、および平坦なミニマの影響に関する貴重な知見を提供する。
関連論文リスト
- General Distribution Learning: A theoretical framework for Deep Learning [0.0]
本稿では,機械学習の統計的タスクに対処する新しい理論学習フレームワークである一般分布学習(GD Learning)を評価する。
GDラーニングは、推定の真の基礎となる確率を推定し、カテゴリに適合するモデルを使用することに焦点を当てる。
本稿では,GD学習フレームワークにおける推定誤差,適合誤差,学習誤差の上限について検討する。
論文 参考訳(メタデータ) (2024-06-09T06:49:22Z) - Neural Network Approximation for Pessimistic Offline Reinforcement
Learning [17.756108291816908]
一般ニューラルネットワーク近似を用いた悲観的オフラインRLの非漸近的推定誤差を提案する。
その結果, 推定誤差は2つの部分から構成されることがわかった。第1は, 部分的に制御可能な集束率でサンプルサイズに所望の速度で0に収束し, 第2は残留制約が厳密であれば無視可能である。
論文 参考訳(メタデータ) (2023-12-19T05:17:27Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Benign Overfitting in Deep Neural Networks under Lazy Training [72.28294823115502]
データ分布が適切に分離された場合、DNNは分類のためのベイズ最適テスト誤差を達成できることを示す。
よりスムーズな関数との補間により、より一般化できることを示す。
論文 参考訳(メタデータ) (2023-05-30T19:37:44Z) - Stability and Generalization Analysis of Gradient Methods for Shallow
Neural Networks [59.142826407441106]
本稿では,アルゴリズム安定性の概念を活用して,浅層ニューラルネットワーク(SNN)の一般化挙動について検討する。
我々は、SNNを訓練するために勾配降下(GD)と勾配降下(SGD)を考慮する。
論文 参考訳(メタデータ) (2022-09-19T18:48:00Z) - The Interplay Between Implicit Bias and Benign Overfitting in Two-Layer
Linear Networks [51.1848572349154]
ノイズの多いデータに完全に適合するニューラルネットワークモデルは、見当たらないテストデータにうまく一般化できる。
我々は,2層線形ニューラルネットワークを2乗損失の勾配流で補間し,余剰リスクを導出する。
論文 参考訳(メタデータ) (2021-08-25T22:01:01Z) - Understanding Overparameterization in Generative Adversarial Networks [56.57403335510056]
generative adversarial network (gans) は、非凹型ミニマックス最適化問題を訓練するために用いられる。
ある理論は、グローバル最適解に対する勾配降下 (gd) の重要性を示している。
ニューラルネットワークジェネレータと線形判別器を併用した多層GANにおいて、GDAは、基礎となる非凹面min-max問題の大域的なサドル点に収束することを示す。
論文 参考訳(メタデータ) (2021-04-12T16:23:37Z) - CASTLE: Regularization via Auxiliary Causal Graph Discovery [89.74800176981842]
因果構造学習(CASTLE)の正規化を導入し,変数間の因果関係を共同学習することでニューラルネットワークの正規化を提案する。
CASTLEは因果的隣り合いを持つ因果的DAGの特徴のみを効率的に再構成する一方、再構成ベース正規化器は全ての入力特徴を過度に再構成する。
論文 参考訳(メタデータ) (2020-09-28T09:49:38Z) - An Optimal Statistical and Computational Framework for Generalized
Tensor Estimation [10.899518267165666]
本稿では,低ランクテンソル推定問題に対するフレキシブルなフレームワークについて述べる。
計算画像、ゲノミクス、ネットワーク解析の応用から多くの重要な例を含む。
論文 参考訳(メタデータ) (2020-02-26T01:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。