論文の概要: Optimal Depth of Neural Networks
- arxiv url: http://arxiv.org/abs/2506.16862v1
- Date: Fri, 20 Jun 2025 09:26:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.401261
- Title: Optimal Depth of Neural Networks
- Title(参考訳): ニューラルネットワークの最適深さ
- Authors: Qian Qi,
- Abstract要約: 本稿では,ニューラルネットワークの最適深さの決定に対処する公式な理論的枠組みを提案する。
我々は、シーケンシャルな決定プロセスとして、隠蔽表現の層間進化をモデル化する。
本稿では,ネットワークが効率よく早期終了可能な表現を学習することを奨励する,新規で実用的な正規化用語である$mathcalL_rm depth$を提案する。
- 参考スコア(独自算出の注目度): 2.1756081703276
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Determining the optimal depth of a neural network is a fundamental yet challenging problem, typically resolved through resource-intensive experimentation. This paper introduces a formal theoretical framework to address this question by recasting the forward pass of a deep network, specifically a Residual Network (ResNet), as an optimal stopping problem. We model the layer-by-layer evolution of hidden representations as a sequential decision process where, at each layer, a choice is made between halting computation to make a prediction or continuing to a deeper layer for a potentially more refined representation. This formulation captures the intrinsic trade-off between accuracy and computational cost. Our primary theoretical contribution is a proof that, under a plausible condition of diminishing returns on the residual functions, the expected optimal stopping depth is provably finite, even in an infinite-horizon setting. We leverage this insight to propose a novel and practical regularization term, $\mathcal{L}_{\rm depth}$, that encourages the network to learn representations amenable to efficient, early exiting. We demonstrate the generality of our framework by extending it to the Transformer architecture and exploring its connection to continuous-depth models via free-boundary problems. Empirical validation on ImageNet confirms that our regularizer successfully induces the theoretically predicted behavior, leading to significant gains in computational efficiency without compromising, and in some cases improving, final model accuracy.
- Abstract(参考訳): ニューラルネットワークの最適深さを決定することは、基本的にはリソース集約的な実験によって解決される、基本的な問題であるが難しい問題である。
本稿では,ディープネットワーク,特にResidual Network(ResNet)の前方通過を最適停止問題として再キャストすることで,この問題に対処する公式な理論的枠組みを提案する。
我々は,隠蔽表現の層間進化を逐次決定過程としてモデル化し,各層において,予測を行うために計算を停止するか,より洗練された表現のためにより深い層に継続するかの選択を行う。
この定式化は、精度と計算コストの間の本質的なトレードオフを捉える。
我々の主要な理論的貢献は、残関数上の還元を減少させる可算条件の下では、期待される最適停止深さは、無限水平条件においても、証明可能な有限であることを示すことである。
我々はこの知見を利用して、ネットワークが効率よく早期終了できる表現を学習することを奨励する、新規で実用的な正規化用語である$\mathcal{L}_{\rm depth}$を提案する。
本稿では,トランスフォーマーアーキテクチャに拡張し,自由境界問題による連続深度モデルへの接続を探索することによって,フレームワークの汎用性を実証する。
ImageNetの実証検証により、我々の正則化器は理論上予測された振る舞いを誘発し、計算効率を大幅に向上させ、場合によっては最終的なモデルの精度が向上することを確認した。
関連論文リスト
- Neural Collapse is Globally Optimal in Deep Regularized ResNets and Transformers [33.441694038617506]
クロスエントロピーや平均二乗誤差損失で訓練されたLayerNormを用いたディープ・正規化変圧器と残留ネットワーク(ResNet)のグローバル最適性がほぼ崩壊していることを証明する。
我々の理論的結果は、コンピュータビジョンと言語データセットの実験によって支持されており、深さが大きくなるにつれて神経崩壊が実際に顕著になることを示している。
論文 参考訳(メタデータ) (2025-05-21T08:16:03Z) - Concurrent Training and Layer Pruning of Deep Neural Networks [0.0]
トレーニングの初期段階において、ニューラルネットワークの無関係な層を特定し、排除できるアルゴリズムを提案する。
本研究では,非線形区間を切断した後にネットワークを流れる情報の流れを,非線形ネットワーク区間の周囲の残差接続を用いた構造を用いる。
論文 参考訳(メタデータ) (2024-06-06T23:19:57Z) - Fixing the NTK: From Neural Network Linearizations to Exact Convex
Programs [63.768739279562105]
学習目標に依存しない特定のマスクウェイトを選択する場合、このカーネルはトレーニングデータ上のゲートReLUネットワークのNTKと等価であることを示す。
この目標への依存の欠如の結果として、NTKはトレーニングセット上の最適MKLカーネルよりもパフォーマンスが良くない。
論文 参考訳(メタデータ) (2023-09-26T17:42:52Z) - Convergence Guarantees of Overparametrized Wide Deep Inverse Prior [1.5362025549031046]
逆優先法(Inverse Priors)は、ランダムな入力をフォワードモデルの下で画像が観察に一致するオブジェクトに変換する、教師なしのアプローチである。
本研究では, 連続時間勾配勾配勾配からトレーニングしたネットワークが, 高確率で指数関数的に高速に収束するオーバーパラメトリゼーション境界を提供する。
この研究は、過度にパラメータ化されたDIPネットワークの理論的理解への第一歩であり、より広い範囲で、逆問題設定におけるニューラルネットワークの理論的理解に関与している。
論文 参考訳(メタデータ) (2023-03-20T16:49:40Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Imbedding Deep Neural Networks [0.0]
ニューラルODEのような連続深度ニューラルネットワークは、非線形ベクトル値の最適制御問題の観点から、残留ニューラルネットワークの理解を再燃させた。
本稿では,ネットワークの深さを基本変数とする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-31T22:00:41Z) - Path Regularization: A Convexity and Sparsity Inducing Regularization
for Parallel ReLU Networks [75.33431791218302]
本稿では,ディープニューラルネットワークのトレーニング問題について検討し,最適化環境に隠された凸性を明らかにするための解析的アプローチを提案する。
我々は、標準のディープ・ネットワークとResNetを特別なケースとして含む、ディープ・パラレルなReLUネットワークアーキテクチャについて検討する。
論文 参考訳(メタデータ) (2021-10-18T18:00:36Z) - Layer Adaptive Node Selection in Bayesian Neural Networks: Statistical
Guarantees and Implementation Details [0.5156484100374059]
スパースディープニューラルネットワークは、大規模研究において予測モデル構築に効率的であることが証明されている。
本稿では,スパイク・アンド・スラブ型ガウス先行法を用いて,訓練中のノード選択を可能にするベイズスパース解を提案する。
本研究は, 先行パラメータのキャラクタリゼーションとともに, 変動的後続一貫性の基本的な結果を確立する。
論文 参考訳(メタデータ) (2021-08-25T00:48:07Z) - Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。
非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-15T06:39:13Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。