論文の概要: When Do Early-Exit Networks Generalize? A PAC-Bayesian Theory of Adaptive Depth
- arxiv url: http://arxiv.org/abs/2604.15764v1
- Date: Fri, 17 Apr 2026 07:08:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.781972
- Title: When Do Early-Exit Networks Generalize? A PAC-Bayesian Theory of Adaptive Depth
- Title(参考訳): アーリーエグジットネットワークはいつ一般化されるか? 適応深さのPAC-ベイジアン理論
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: 早期の外部ニューラルネットワークは、中間層で確実な予測を終了させることで、適応的な計算を可能にする。
広く展開されているにもかかわらず、それらの一般化特性は理論的な理解を欠いている。
本稿では,適応深度ネットワークのための統一的なPAC-Bayesianフレームワークを確立する。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early-exit neural networks enable adaptive computation by allowing confident predictions to exit at intermediate layers, achieving 2-8$\times$ inference speedup. Despite widespread deployment, their generalization properties lack theoretical understanding -- a gap explicitly identified in recent surveys. This paper establishes a unified PAC-Bayesian framework for adaptive-depth networks. (1) Novel Entropy-Based Bounds: We prove the first generalization bounds depending on exit-depth entropy $H(D)$ and expected depth $\mathbb{E}[D]$ rather than maximum depth $K$, with sample complexity $\mathcal{O}((\mathbb{E}[D] \cdot d + H(D))/ε^2)$. (2) Explicit Constructive Constants: Our analysis yields the leading coefficient $\sqrt{2\ln 2} \approx 1.177$ with complete derivation. (3) Provable Early-Exit Advantages: We establish sufficient conditions under which adaptive-depth networks strictly outperform fixed-depth counterparts. (4) Extension to Approximate Label Independence: We relax the label-independence assumption to $ε$-approximate policies, broadening applicability to learned routing. (5) Comprehensive Validation: Experiments across 6 architectures on 7 benchmarks demonstrate tightness ratios of 1.52-3.87$\times$ (all $p < 0.001$) versus $>$100$\times$ for classical bounds. Bound-guided threshold selection matches validation-tuned performance within 0.1-0.3%.
- Abstract(参考訳): 初期出力ニューラルネットワークは、信頼ある予測を中間層で終了させ、2-8$\times$推論スピードアップを達成することで、適応的な計算を可能にする。
広く展開されているにもかかわらず、それらの一般化特性は理論的な理解に欠けており、これは最近の調査で明確に特定されているギャップである。
本稿では,適応深度ネットワークのための統一的なPAC-Bayesianフレームワークを確立する。
1) 新しいエントロピーベース境界: 出口深度エントロピー$H(D)$と期待深度$\mathbb{E}[D]$による最初の一般化境界を、サンプル複雑性$\mathcal{O}((\mathbb{E}[D] \cdot d + H(D))/ε^2)$で証明する。
(2) 明示的な構成定数: 我々の解析は、完全な導出を伴う主係数 $\sqrt{2\ln 2} \approx 1.177$ を得る。
(3)適応深度ネットワークが固定深度ネットワークを厳密に上回る十分な条件を確立すること。
(4) ラベル独立性の拡張: ラベル独立性の仮定を$ε$-approximateポリシーに緩和し、学習したルーティングの適用性を広げる。
(5) 総合検証: 7つのベンチマークで6つのアーキテクチャにまたがる実験は、古典的境界に対して 1.52-3.87$\times$ (all $p < 0.001$) に対して$>100$\times$ の厳密性比を示す。
境界誘導閾値選択は0.1~0.3%の範囲で検証調整性能と一致した。
関連論文リスト
- Provably Adaptive Linear Approximation for the Shapley Value and Beyond [73.0940890296463]
基本的で長期にわたる課題は、その効率的な近似である。
一般に用いられるすべての半値に対して$P(|hatboldsymbol-boldsymbol|_2geq)leq$を必要とする線形空間アルゴリズムを開発する。
本アルゴリズムは,各ユーティリティ関数の平均二乗誤差の明示的最小化を可能にする。
論文 参考訳(メタデータ) (2026-04-09T16:38:14Z) - Exploring Sparsity and Smoothness of Arbitrary $\ell_p$ Norms in Adversarial Attacks [4.366212978228445]
$ell_p$ norms with $pin [1.3, 1.5]$がスパースとスムーズなアタックの最良のトレードオフをもたらすことを示す。
これらの知見は、敵攻撃を設計・評価する際の規範選択の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2026-02-06T10:19:14Z) - Constructive Lyapunov Functions via Topology-Preserving Neural Networks [0.0]
ONNは収束率、エッジ効率、計算複雑性の順序-最適性能を達成する。
3Mノードのセマンティックネットワークにおける実証的な検証は、ベースライン法よりも99.75%改善されている。
ORTSFをトランスに組み込むことで、14.7%のパープレキシティ低減と2.3の高速化を実現している。
論文 参考訳(メタデータ) (2025-10-10T17:46:52Z) - Architecture-Aware Generalization Bounds for Temporal Networks: Theory and Fair Comparison Methodology [8.006116553957659]
深部時間モデルに対する非空でないアーキテクチャを意識した最初の一般化境界を提供する。
指数関数的に$beta$-mixing列の場合、$O!Bigl(R,sqrttfracD,p,n,log NNBigr)、$D$はネットワーク深さ、$p$カーネルサイズ、$n$入力次元、$R$ウェイトノルムとなる。
我々の遅延フィードバックブロッキング機構は、O(1/log N)のみを捨てながら、依存するサンプルを事実上独立したものに変換する
論文 参考訳(メタデータ) (2025-08-08T06:57:49Z) - LLMs are Bayesian, in Expectation, not in Realization [0.0]
大きな言語モデルはパラメータを更新せずに新しいタスクに適応する。
最近の経験的発見は根本的な矛盾を示しており、変圧器はマルティンゲールの性質を体系的に侵害している。
この違反は、臨界応用における不確実性定量化の基礎となる理論的基礎に挑戦する。
論文 参考訳(メタデータ) (2025-07-15T22:20:11Z) - Probabilistically Tightened Linear Relaxation-based Perturbation Analysis for Neural Network Verification [83.25968588249776]
本稿では,LiRPAに基づく手法とサンプリングに基づく手法を組み合わせることで,厳密な中間到達性集合を計算できる新しいフレームワークを提案する。
無視可能な計算オーバーヘッドでは、$textttPT-LiRPA$は推定された到達可能な集合を利用し、ニューラルネットワークの出力の上下線形境界を著しく締め付ける。
論文 参考訳(メタデータ) (2025-07-07T18:45:53Z) - Convergence Rate Analysis of LION [54.28350823319057]
LION は、勾配カルシュ=クーン=T (sqrtdK-)$で測定された $cal(sqrtdK-)$ の反復を収束する。
従来のSGDと比較して,LIONは損失が小さく,性能も高いことを示す。
論文 参考訳(メタデータ) (2024-11-12T11:30:53Z) - Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。
また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。
我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Fast Rates for Bandit PAC Multiclass Classification [73.17969992976501]
我々は,帯域幅フィードバックを用いたマルチクラスPAC学習について検討し,入力を$K$ラベルの1つに分類し,予測されたラベルが正しいか否かに制限する。
我々の主な貢献は、問題の無知な$(varepsilon,delta)$PACバージョンのための新しい学習アルゴリズムを設計することである。
論文 参考訳(メタデータ) (2024-06-18T08:54:04Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。