論文の概要: Why and When Deep is Better than Shallow: An Implementation-Agnostic State-Transition View of Depth Supremacy
- arxiv url: http://arxiv.org/abs/2505.15064v2
- Date: Thu, 25 Sep 2025 13:55:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 14:16:55.818381
- Title: Why and When Deep is Better than Shallow: An Implementation-Agnostic State-Transition View of Depth Supremacy
- Title(参考訳): 深部が浅部より優れている理由と時期 - 深部確率の非依存的状態遷移観-
- Authors: Sho Sonoda, Yuka Hashimoto, Isao Ishikawa, Masahiro Ikeda,
- Abstract要約: 一般距離空間上で作用する抽象的状態遷移半群として深部モデルを定式化する。
我々は、実装(例えば、ReLUネット、トランスフォーマー、チェーンオブ思想)を抽象状態遷移から分離する。
差分は抽象的な深さ-$k$ネットワークにのみ依存し、実装には依存しないバイアス-分散分解を証明している。
- 参考スコア(独自算出の注目度): 15.310099705870114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why and when is deep better than shallow? We answer this question in a framework that is agnostic to network implementation. We formulate a deep model as an abstract state-transition semigroup acting on a general metric space, and separate the implementation (e.g., ReLU nets, transformers, and chain-of-thought) from the abstract state transition. We prove a bias-variance decomposition in which the variance depends only on the abstract depth-$k$ network and not on the implementation (Theorem 1). We further split the bounds into output and hidden parts to tie the depth dependence of the variance to the metric entropy of the state-transition semigroup (Theorem 2). We then investigate implementation-free conditions under which the variance grow polynomially or logarithmically with depth (Section 4). Combining these with exponential or polynomial bias decay identifies four canonical bias-variance trade-off regimes (EL/EP/PL/PP) and produces explicit optimal depths $k^\ast$. Across regimes, $k^\ast>1$ typically holds, giving a rigorous form of depth supremacy. The lowest generalization error bound is achieved under the EL regime (exp-decay bias + log-growth variance), explaining why and when deep is better, especially for iterative or hierarchical concept classes such as neural ODEs, diffusion/score models, and chain-of-thought reasoning.
- Abstract(参考訳): なぜ、いつ、浅いより深いのか?
ネットワーク実装に依存しないフレームワークでこの質問に答える。
一般距離空間上で作用する抽象状態遷移半群として深部モデルを定式化し、その実装(例えば、ReLUネット、トランスフォーマー、チェーンオブ思考)を抽象状態遷移から分離する。
差分が抽象的な深さ-$k$ネットワークにのみ依存し、実装に依存しないバイアス分散分解を証明する(定理1)。
さらに境界を出力と隠れ部分に分割し、状態遷移半群の計量エントロピーに分散の深さ依存性を結びつける(定理2)。
次に、分散が深さと多項式的にあるいは対数的に増加する実装自由条件について検討する(第4部)。
これらを指数的あるいは多項式的バイアス減衰と組み合わせることで、4つの正準バイアス分散トレードオフ状態(EL/EP/PL/PP)を特定し、明確な最適深さを$k^\ast$とする。
across regimes, $k^\ast>1$ is generally hold, a rigorous form of depth supremacy。
最も低い一般化誤差境界はEL体制の下で達成され(exp-decay bias + log-growth variance)、特にニューラルODE、拡散/スコアモデル、チェーン・オブ・シークレットの推論のような反復的あるいは階層的な概念クラスにおいて、なぜ、いつより深いかを説明する。
関連論文リスト
- Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws [21.18373933718468]
高次元状態における二次活性化関数を持つ2層ニューラルネットワークの勾配に基づくトレーニングの最適化とサンプル複雑性について検討する。
本稿では,特徴学習体制における動態の急激な解析を行い,人口制限と有限サンプルの離散化について述べる。
論文 参考訳(メタデータ) (2025-08-05T17:57:56Z) - The Generative Leap: Sharp Sample Complexity for Efficiently Learning Gaussian Multi-Index Models [71.5283441529015]
この研究において、ラベルは(ガウス)$d$-次元入力にのみ依存し、低次元$r = O_d(1)$部分空間への射影を通して得られる。
生成的跳躍指数 $kstar$, [Damian et al.'24] から生成的指数の自然拡張をマルチインデックス設定に導入する。
論文 参考訳(メタデータ) (2025-06-05T18:34:56Z) - Quantum Circuit Encodings of Polynomial Chaos Expansions [5.63729124086755]
可算パラメトリックな正則写像 $u:Uto mathbbR$, ここでパラメータ領域は$U=[-1,1]mathbbN$である。
我々は、これらのパラメトリックマップの一般化カオス(gPC)展開の最良の$n$の長期トラニケーションを通じて、次元非依存の量子回路近似速度を確立する。
本結果は,アプリケーションにおける広範囲のマップに対する量子化アルゴリズムに影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-02T15:53:36Z) - How well behaved is finite dimensional Diffusion Maps? [0.0]
有限次元およびほぼ等距離拡散写像(DM)の後に有効である一連の性質を導出する。
DM埋め込み後の部分多様体上の推定接空間と真の接空間との誤差を定量化する。
これらの結果は,実践的応用におけるDMの性能と信頼性を理解するための確固たる理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-12-05T09:12:25Z) - Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。
また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。
我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Exponential Separations in Symmetric Neural Networks [48.80300074254758]
我々は、対称なNetworkparencitesantoro 2017simple ArchitectureをDeepSetsparencitezaheerdeep Architectureの自然な一般化と見なしている。
解析活性化関数の制限の下で、次元が$N$の集合に作用する対称函数を$D$で構成する。
論文 参考訳(メタデータ) (2022-06-02T19:45:10Z) - Geometric Graph Representation Learning via Maximizing Rate Reduction [73.6044873825311]
学習ノード表現は、コミュニティ検出やノード分類などのグラフ解析において、さまざまな下流タスクの恩恵を受ける。
教師なしの方法でノード表現を学習するための幾何学グラフ表現学習(G2R)を提案する。
G2R は異なるグループ内のノードを異なる部分空間にマッピングし、各部分空間はコンパクトで異なる部分空間が分散される。
論文 参考訳(メタデータ) (2022-02-13T07:46:24Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Exponential Convergence of Deep Operator Networks for Elliptic Partial
Differential Equations [0.0]
楕円型二階PDEの係数対解写像の指数収束率でエミュレートする無限次元空間間の深い作用素ネットワーク(ONets)を構築する。
特に、$d$次元周期領域、$d=1, 2, dots$、分析右辺と係数に設定された問題を考える。
我々はONetのニューラルネットワークのサイズが$mathcalO(left|log(varepsilon)right|kappa)$であることを示す。
論文 参考訳(メタデータ) (2021-12-15T13:56:28Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Better Depth-Width Trade-offs for Neural Networks through the lens of
Dynamical Systems [24.229336600210015]
近年, 動的システムとの新たな接続により, ReLU ネットワークの深度分離結果を得た。
既存の幅の低い境界を、いくつかの面で改善する。
我々の結果の副産物は、深さ幅のトレードオフを特徴づける普遍定数が存在することである。
論文 参考訳(メタデータ) (2020-03-02T11:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。