論文の概要: Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2602.16177v2
- Date: Thu, 19 Feb 2026 02:36:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.219279
- Title: Conjugate Learning Theory: Uncovering the Mechanisms of Trainability and Generalization in Deep Neural Networks
- Title(参考訳): 共役学習理論:ディープニューラルネットワークにおける訓練性と一般化のメカニズムを明らかにする
- Authors: Binchuan Qi,
- Abstract要約: 凸共役双対性に基づく共役学習理論フレームワークを開発し,この学習性特性を特徴付ける。
我々は,ミニバッチ降下(SGD)による深層ニューラルネットワーク(DNN)のトレーニングが,経験的リスクのグローバルな最適化を実現することを実証した。
条件付き一般化エントロピー測度に基づく一般化誤差に関する決定論的および確率的境界を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose a notion of practical learnability grounded in finite sample settings, and develop a conjugate learning theoretical framework based on convex conjugate duality to characterize this learnability property. Building on this foundation, we demonstrate that training deep neural networks (DNNs) with mini-batch stochastic gradient descent (SGD) achieves global optima of empirical risk by jointly controlling the extreme eigenvalues of a structure matrix and the gradient energy, and we establish a corresponding convergence theorem. We further elucidate the impact of batch size and model architecture (including depth, parameter count, sparsity, skip connections, and other characteristics) on non-convex optimization. Additionally, we derive a model-agnostic lower bound for the achievable empirical risk, theoretically demonstrating that data determines the fundamental limit of trainability. On the generalization front, we derive deterministic and probabilistic bounds on generalization error based on generalized conditional entropy measures. The former explicitly delineates the range of generalization error, while the latter characterizes the distribution of generalization error relative to the deterministic bounds under independent and identically distributed (i.i.d.) sampling conditions. Furthermore, these bounds explicitly quantify the influence of three key factors: (i) information loss induced by irreversibility in the model, (ii) the maximum attainable loss value, and (iii) the generalized conditional entropy of features with respect to labels. Moreover, they offer a unified theoretical lens for understanding the roles of regularization, irreversible transformations, and network depth in shaping the generalization behavior of deep neural networks. Extensive experiments validate all theoretical predictions, confirming the framework's correctness and consistency.
- Abstract(参考訳): 本研究では,有限サンプル設定に基づく実践的学習可能性の概念を提案し,凸共役双対性に基づく共役学習理論フレームワークを開発し,この学習可能性特性を特徴づける。
この基礎に基づいて、我々は、構造行列の極端固有値と勾配エネルギーを共同制御することにより、ミニバッチ確率勾配降下(SGD)による深部ニューラルネットワーク(DNN)のトレーニングが、経験的リスクのグローバルな最適化を実現することを実証し、対応する収束定理を確立する。
非凸最適化におけるバッチサイズとモデルアーキテクチャ(深さ,パラメータ数,疎度,接続のスキップなど)の影響をさらに解明する。
さらに、達成可能な経験的リスクに対するモデルに依存しない下限を導出し、データが訓練可能性の基本的な限界を決定することを理論的に証明する。
一般化面では、一般化条件エントロピー測度に基づく一般化誤差に関する決定的および確率的境界を導出する。
前者は一般化誤差の範囲を明示的に記述し、後者は独立かつ同一に分散されたサンプリング条件下での決定論的境界に対する一般化誤差の分布を特徴付ける。
さらに、これらの境界は3つの重要な要素の影響を明示的に定量化する。
一 モデルにおける不可逆性により引き起こされた情報損失
(ii)到達可能な最大損失値、及び
三 ラベルに関する特徴の一般化条件エントロピー
さらに、彼らは、ディープニューラルネットワークの一般化動作を形成する上での正規化、不可逆変換、およびネットワーク深さの役割を理解するための統一された理論レンズを提供する。
大規模な実験は、フレームワークの正しさと整合性を確認することによって、すべての理論的予測を検証する。
関連論文リスト
- Understanding Generalization from Embedding Dimension and Distributional Convergence [13.491874401333021]
表現中心の観点から一般化を研究し、学習した埋め込みの幾何学が固定訓練モデルの予測性能をどのように制御するかを分析する。
人口リスクは, (i) 埋込み分布の内在的次元, (i) 埋込み分布のワッサーシュタイン距離における人口分布への収束率, (ii) 埋込みから予測への下流マッピングの感度, (ii) リプシッツ定数によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-30T09:32:04Z) - Towards A Unified PAC-Bayesian Framework for Norm-based Generalization Bounds [63.47271262149291]
PAC-Bayesianノルムに基づく一般化のための統一的なフレームワークを提案する。
提案手法の鍵となるのは、構造的重み摂動に関してネットワーク出力を定量化する感度行列である。
我々は、いくつかの既存のPAC-ベイジアン結果を特殊ケースとして回復する一般化境界の族を導出する。
論文 参考訳(メタデータ) (2026-01-13T00:42:22Z) - Random-Matrix-Induced Simplicity Bias in Over-parameterized Variational Quantum Circuits [72.0643009153473]
本稿では,観測可能な期待値とパラメータ勾配の両方がシステムサイズに指数関数的に集中するHaar型普遍性クラスに,表現的変分アンサーゼが入ることを示す。
その結果、そのような回路によって誘導される仮説クラスは、近点関数の狭い族に高い確率で崩壊する。
テンソル-ネットワークベースおよびテンソル-ハイパーネットワークパラメータ化を含むテンソル構造VQCは、ハール型普遍性クラスの外にある。
論文 参考訳(メタデータ) (2026-01-05T08:04:33Z) - Non-Asymptotic Stability and Consistency Guarantees for Physics-Informed Neural Networks via Coercive Operator Analysis [0.0]
物理インフォームドニューラルネットワーク(PINN)の安定性と一貫性を解析するための統一的理論的枠組みを提案する。
PINNは、サンプルコロケーションと境界点上の残留損失を最小限に抑え、偏微分方程式(PDE)の近似解を求める。
我々は、整合性の作用素レベルと変分の概念の両方を形式化し、ソボレフノルムの残留最小化が、穏やかな正則性の下でエネルギーと一様ノルムの収束をもたらすことを証明した。
論文 参考訳(メタデータ) (2025-06-16T14:41:15Z) - Error Bounds of Supervised Classification from Information-Theoretic Perspective [0.0]
我々は、情報理論の観点から、教師付き分類にディープニューラルネットワークを使用する場合の予測リスクのバウンダリについて検討する。
経験的リスクをさらに分解したモデルリスクとフィッティングエラーを導入する。
論文 参考訳(メタデータ) (2024-06-07T01:07:35Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Fluctuations, Bias, Variance & Ensemble of Learners: Exact Asymptotics
for Convex Losses in High-Dimension [25.711297863946193]
我々は、異なる、しかし相関のある特徴に基づいて訓練された一般化線形モデルの集合における揺らぎの研究の理論を開発する。
一般凸損失と高次元限界における正則化のための経験的リスク最小化器の結合分布の完全な記述を提供する。
論文 参考訳(メタデータ) (2022-01-31T17:44:58Z) - Predicting Unreliable Predictions by Shattering a Neural Network [145.3823991041987]
線形ニューラルネットワークは、サブファンクションに分割することができる。
サブファンクションは、独自のアクティベーションパターン、ドメイン、経験的エラーを持っている。
完全なネットワークに対する経験的エラーは、サブファンクションに対する期待として記述できる。
論文 参考訳(メタデータ) (2021-06-15T18:34:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。