論文の概要: Generalization Through Growth: Hidden Dynamics Controls Depth Dependence
- arxiv url: http://arxiv.org/abs/2505.15064v1
- Date: Wed, 21 May 2025 03:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.843203
- Title: Generalization Through Growth: Hidden Dynamics Controls Depth Dependence
- Title(参考訳): 成長を通じた一般化:隠れたダイナミクス制御は深さ依存性を制御
- Authors: Sho Sonoda, Yuka Hashimoto, Isao Ishikawa, Masahiro Ikeda,
- Abstract要約: 本稿では、奥行き(k)ネットワークが連続隠蔽写像(f:mathcalXto MathcalX)と出力写像(h:mathcalXto mathbbR)の合成である任意のブループシュード計量空間に対する統一的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 15.67299102925013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent theory has reduced the depth dependence of generalization bounds from exponential to polynomial and even depth-independent rates, yet these results remain tied to specific architectures and Euclidean inputs. We present a unified framework for arbitrary \blue{pseudo-metric} spaces in which a depth-\(k\) network is the composition of continuous hidden maps \(f:\mathcal{X}\to \mathcal{X}\) and an output map \(h:\mathcal{X}\to \mathbb{R}\). The resulting bound $O(\sqrt{(\alpha + \log \beta(k))/n})$ isolates the sole depth contribution in \(\beta(k)\), the word-ball growth of the semigroup generated by the hidden layers. By Gromov's theorem polynomial (resp. exponential) growth corresponds to virtually nilpotent (resp. expanding) dynamics, revealing a geometric dichotomy behind existing $O(\sqrt{k})$ (sublinear depth) and $\tilde{O}(1)$ (depth-independent) rates. We further provide covering-number estimates showing that expanding dynamics yield an exponential parameter saving via compositional expressivity. Our results decouple specification from implementation, offering architecture-agnostic and dynamical-systems-aware guarantees applicable to modern deep-learning paradigms such as test-time inference and diffusion models.
- Abstract(参考訳): 最近の理論は指数関数から多項式への一般化境界の深さ依存性を減らし、深さに依存しない速度も減らしているが、これらの結果は特定のアーキテクチャやユークリッド入力と結びついている。
任意の \blue{pseudo-metric} 空間に対して、深さ-(k\) ネットワークが連続隠れ写像 \(f:\mathcal{X}\to \mathcal{X}\) と出力写像 \(h:\mathcal{X}\to \mathbb{R}\) の合成であるような統一的なフレームワークを提案する。
結果として得られる$O(\sqrt{(\alpha + \log \beta(k))/n})$は、隠れた層によって生成される半群のワードボール成長である \(\beta(k)\ における唯一の深さ寄与を分離する。
グロモフの定理多項式 (resp.指数関数) による成長は、事実上零な (resp. expand) ダイナミクスに対応し、既存の$O(\sqrt{k})$(線型深さ)と$\tilde{O}(1)$(深度非依存)の後に幾何学的二分法を明らかにする。
さらに, 動的拡大が構成表現率による指数的パラメータの節約をもたらすことを示す被覆数推定を行った。
テスト時間推論や拡散モデルといった近代的なディープラーニングパラダイムに適用可能なアーキテクチャに依存しない動的システムの保証を提供する。
関連論文リスト
- Provable FDR Control for Deep Feature Selection: Deep MLPs and Beyond [0.0]
深層ニューラルネットワークに基づくフレキシブルな特徴選択フレームワークを開発し,FDR(False discovery rate)を概ね制御する。
勾配に基づく特徴ベクトルの各座標は、限界正規近似を許容し、FDR制御の有効性を支持することを示す。
論文 参考訳(メタデータ) (2025-12-04T11:46:06Z) - Learning quadratic neural networks in high dimensions: SGD dynamics and scaling laws [21.18373933718468]
高次元状態における二次活性化関数を持つ2層ニューラルネットワークの勾配に基づくトレーニングの最適化とサンプル複雑性について検討する。
本稿では,特徴学習体制における動態の急激な解析を行い,人口制限と有限サンプルの離散化について述べる。
論文 参考訳(メタデータ) (2025-08-05T17:57:56Z) - The Generative Leap: Sharp Sample Complexity for Efficiently Learning Gaussian Multi-Index Models [71.5283441529015]
この研究において、ラベルは(ガウス)$d$-次元入力にのみ依存し、低次元$r = O_d(1)$部分空間への射影を通して得られる。
生成的跳躍指数 $kstar$, [Damian et al.'24] から生成的指数の自然拡張をマルチインデックス設定に導入する。
論文 参考訳(メタデータ) (2025-06-05T18:34:56Z) - Quantum Circuit Encodings of Polynomial Chaos Expansions [5.63729124086755]
可算パラメトリックな正則写像 $u:Uto mathbbR$, ここでパラメータ領域は$U=[-1,1]mathbbN$である。
我々は、これらのパラメトリックマップの一般化カオス(gPC)展開の最良の$n$の長期トラニケーションを通じて、次元非依存の量子回路近似速度を確立する。
本結果は,アプリケーションにおける広範囲のマップに対する量子化アルゴリズムに影響を及ぼす。
論文 参考訳(メタデータ) (2025-06-02T15:53:36Z) - A Near Complete Nonasymptotic Generalization Theory For Multilayer Neural Networks: Beyond the Bias-Variance Tradeoff [57.25901375384457]
任意のリプシッツ活性化と一般リプシッツ損失関数を持つ多層ニューラルネットワークに対する漸近一般化理論を提案する。
特に、文献でよく見られるように、損失関数の有界性を必要としない。
回帰問題に対する多層ReLUネットワークに対する理論の極小最適性を示す。
論文 参考訳(メタデータ) (2025-03-03T23:34:12Z) - How well behaved is finite dimensional Diffusion Maps? [0.0]
有限次元およびほぼ等距離拡散写像(DM)の後に有効である一連の性質を導出する。
DM埋め込み後の部分多様体上の推定接空間と真の接空間との誤差を定量化する。
これらの結果は,実践的応用におけるDMの性能と信頼性を理解するための確固たる理論的基盤を提供する。
論文 参考訳(メタデータ) (2024-12-05T09:12:25Z) - Constructive Universal Approximation and Finite Sample Memorization by Narrow Deep ReLU Networks [0.0]
我々は$N$の異なる点を持つデータセットが$mathbbRd$と$M$の出力クラスを正確に分類できることを示した。
また、任意の有界領域に対して$Lp(Omega; mathbbRm)$の普遍近似定理も証明する。
我々の結果は、深層ニューラルネットワークにおける制御性、表現性、およびトレーニングのダイナミクスを接続する統一的で解釈可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-09-10T14:31:21Z) - Absolute abstraction: a renormalisation group approach [0.0]
深度だけでは真の抽象表現を開発するには不十分である、と我々は主張する。
私たちは、この変換の固定点である階層的特徴モデル(hierarchical Feature Model)を、完全に抽象的な表現の候補としています。
論文 参考訳(メタデータ) (2024-07-01T14:13:11Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Policy Gradient with Tree Expansion [72.10002936187388]
政策勾配法は、大きなばらつきと高いサンプルの複雑さを持つことで有名である。
我々は、計画を採用するソフトマックスの一般化であるSoftTreeMaxを紹介します。
我々は、SoftTreeMaxが勾配のばらつきを3桁に減らすことを示す。
論文 参考訳(メタデータ) (2023-01-30T19:03:14Z) - Exponential Separations in Symmetric Neural Networks [48.80300074254758]
我々は、対称なNetworkparencitesantoro 2017simple ArchitectureをDeepSetsparencitezaheerdeep Architectureの自然な一般化と見なしている。
解析活性化関数の制限の下で、次元が$N$の集合に作用する対称函数を$D$で構成する。
論文 参考訳(メタデータ) (2022-06-02T19:45:10Z) - Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo [43.415242967722804]
最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
論文 参考訳(メタデータ) (2022-05-08T05:13:04Z) - On the Generalization Mystery in Deep Learning [15.2292571922932]
2つの質問に対する答えは、トレーニング中の異なる例の勾配の相互作用にあると論じる。
我々は、コヒーレンスに対する計算が容易で解釈可能な計量を用いて、この議論を定式化する。
この理論は、なぜいくつかの例が他の例よりも早く確実に学習されるのかなど、ディープラーニングの他の多くの現象についても説明している。
論文 参考訳(メタデータ) (2022-03-18T16:09:53Z) - Geometric Graph Representation Learning via Maximizing Rate Reduction [73.6044873825311]
学習ノード表現は、コミュニティ検出やノード分類などのグラフ解析において、さまざまな下流タスクの恩恵を受ける。
教師なしの方法でノード表現を学習するための幾何学グラフ表現学習(G2R)を提案する。
G2R は異なるグループ内のノードを異なる部分空間にマッピングし、各部分空間はコンパクトで異なる部分空間が分散される。
論文 参考訳(メタデータ) (2022-02-13T07:46:24Z) - Exponential Family Model-Based Reinforcement Learning via Score Matching [97.31477125728844]
有限水平表層強化学習(RL)のための楽観的モデルベースアルゴリズムSMRLを提案する。
SMRLは、リッジ回帰によるモデルパラメータの効率的な推定を可能にする非正規化密度推定手法であるスコアマッチングを用いる。
論文 参考訳(メタデータ) (2021-12-28T15:51:07Z) - Exponential Convergence of Deep Operator Networks for Elliptic Partial
Differential Equations [0.0]
楕円型二階PDEの係数対解写像の指数収束率でエミュレートする無限次元空間間の深い作用素ネットワーク(ONets)を構築する。
特に、$d$次元周期領域、$d=1, 2, dots$、分析右辺と係数に設定された問題を考える。
我々はONetのニューラルネットワークのサイズが$mathcalO(left|log(varepsilon)right|kappa)$であることを示す。
論文 参考訳(メタデータ) (2021-12-15T13:56:28Z) - Unified Field Theory for Deep and Recurrent Neural Networks [56.735884560668985]
本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。
平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。
提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:06:11Z) - On the Variance of the Fisher Information for Deep Learning [79.71410479830222]
Fisher InformationMatrix (FIM) はディープラーニングの領域に応用されている。
正確なFIMは、クローズドな形で利用できないか、計算に高すぎるかのいずれかである。
FIMの2つの等価表現に基づく2つの推定器について検討する。
論文 参考訳(メタデータ) (2021-07-09T04:46:50Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - Representational aspects of depth and conditioning in normalizing flows [33.4333537858003]
私たちは、分割の選択が深さのボトルネックではないことを表現的に示しています。
また、浅いアフィンカップリングネットワークはワッサーシュタイン距離の普遍近似器であることを示す。
論文 参考訳(メタデータ) (2020-10-02T18:15:45Z) - Better Depth-Width Trade-offs for Neural Networks through the lens of
Dynamical Systems [24.229336600210015]
近年, 動的システムとの新たな接続により, ReLU ネットワークの深度分離結果を得た。
既存の幅の低い境界を、いくつかの面で改善する。
我々の結果の副産物は、深さ幅のトレードオフを特徴づける普遍定数が存在することである。
論文 参考訳(メタデータ) (2020-03-02T11:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。