論文の概要: Architecture-Aware Generalization Bounds for Temporal Networks: Theory and Fair Comparison Methodology
- arxiv url: http://arxiv.org/abs/2508.06066v1
- Date: Fri, 08 Aug 2025 06:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.110408
- Title: Architecture-Aware Generalization Bounds for Temporal Networks: Theory and Fair Comparison Methodology
- Title(参考訳): 時間ネットワークのためのアーキテクチャを考慮した一般化境界:理論と公正比較手法
- Authors: Barak Gahtan, Alex M. Bronstein,
- Abstract要約: 深部時間モデルに対する非空でないアーキテクチャを意識した最初の一般化境界を提供する。
指数関数的に$beta$-mixing列の場合、$O!Bigl(R,sqrttfracD,p,n,log NNBigr)、$D$はネットワーク深さ、$p$カーネルサイズ、$n$入力次元、$R$ウェイトノルムとなる。
我々の遅延フィードバックブロッキング機構は、O(1/log N)のみを捨てながら、依存するサンプルを事実上独立したものに変換する
- 参考スコア(独自算出の注目度): 8.006116553957659
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep temporal architectures such as Temporal Convolutional Networks (TCNs) achieve strong predictive performance on sequential data, yet theoretical understanding of their generalization remains limited. We address this gap by providing both the first non-vacuous, architecture-aware generalization bounds for deep temporal models and a principled evaluation methodology. For exponentially $\beta$-mixing sequences, we derive bounds scaling as $ O\!\Bigl(R\,\sqrt{\tfrac{D\,p\,n\,\log N}{N}}\Bigr), $ where $D$ is network depth, $p$ kernel size, $n$ input dimension, and $R$ weight norm. Our delayed-feedback blocking mechanism transforms dependent samples into effectively independent ones while discarding only $O(1/\log N)$ of the data, yielding $\sqrt{D}$ scaling instead of exponential, implying that doubling depth requires approximately quadrupling the training data. We also introduce a fair-comparison methodology that fixes the effective sample size to isolate the effect of temporal structure from information content. Under $N_{\text{eff}}=2{,}000$, strongly dependent sequences ($\rho=0.8$) exhibit $\approx76\%$ smaller generalization gaps than weakly dependent ones ($\rho=0.2$), challenging the intuition that dependence is purely detrimental. Yet convergence rates diverge from theory: weak dependencies follow $N_{\text{eff}}^{-1.21}$ scaling and strong dependencies follow $N_{\text{eff}}^{-0.89}$, both steeper than the predicted $N^{-0.5}$. These findings reveal that temporal dependence can enhance learning under fixed information budgets, while highlighting gaps between theory and practice that motivate future research.
- Abstract(参考訳): 時間的畳み込みネットワーク(TCN)のような深い時間的アーキテクチャは、シーケンシャルなデータに対して強い予測性能を達成するが、その一般化に関する理論的理解は限られている。
このギャップに対処するために、深部時間モデルに対する最初の空でないアーキテクチャを意識した一般化境界と、原則化された評価手法の両方を提供する。
指数関数的に$\beta$-mixing 列の場合、境界スケーリングは$ O\!
\Bigl(R\,\sqrt{\tfrac{D\,p\,n\,\log N}{N}}\Bigr), $ where $D$ is network depth, $p$ kernel size, $n$ input dimension, $R$ weight norm。
我々の遅延フィードバックブロッキングメカニズムは、依存するサンプルを事実上独立したものに変換し、データの$O(1/\log N)$だけを破棄し、指数関数の代わりに$\sqrt{D}$をスケーリングする。
また,情報コンテンツから時間構造の影響を分離するために,有効サンプルサイズを補正する公正比較手法も導入する。
N_{\text{eff}}=2{,}000$の下では、強い依存配列(\rho=0.8$)は、弱い依存配列(\rho=0.2$)よりも小さな一般化ギャップ($\approx76\%$)を示し、依存が純粋に有害であるという直感に挑戦する。
弱い依存は$N_{\text{eff}}^{-1.21}$のスケーリングと強い依存は$N_{\text{eff}}^{-0.89}$のスケーリングに従う。
これらの結果から,時間的依存は情報予算の下での学習を促進するとともに,理論と実践のギャップを浮き彫りにし,今後の研究を動機付けることが示唆された。
関連論文リスト
- Simple Convergence Proof of Adam From a Sign-like Descent Perspective [58.89890024903816]
我々は、Adamが以前の$cal O(fracln TTs14)$よりも$cal O(frac1Ts14)$の最適なレートを達成することを示す。
我々の理論分析は、収束を保証する重要な要因として運動量の役割に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2025-07-08T13:19:26Z) - Neural network learns low-dimensional polynomials with SGD near the information-theoretic limit [75.4661041626338]
単一インデックス対象関数 $f_*(boldsymbolx) = textstylesigma_*left(langleboldsymbolx,boldsymbolthetarangleright)$ の勾配勾配勾配学習問題について検討する。
SGDに基づくアルゴリズムにより最適化された2層ニューラルネットワークは、情報指数に支配されない複雑さで$f_*$を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:56:58Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Spatially heterogeneous learning by a deep student machine [0.0]
多数の調整可能なパラメータを持つディープニューラルネットワーク(DNN)は、ほとんどブラックボックスのままである。
我々は,教師学生設定と呼ばれる統計力学手法を用いて,NL$パーセプトロンと$c$入力からなるDNNと深度$L$の教師学習について検討した。
N gg c gg 1$ and $M gg 1$ with fixed $alpha=M/c$ using the replica method developed in (H. Yoshino,)
論文 参考訳(メタデータ) (2023-02-15T01:09:03Z) - Bounding the Width of Neural Networks via Coupled Initialization -- A
Worst Case Analysis [121.9821494461427]
2層ReLUネットワークに必要なニューロン数を著しく削減する方法を示す。
また、事前の作業を改善するための新しい下位境界を証明し、ある仮定の下では、最善を尽くすことができることを証明します。
論文 参考訳(メタデータ) (2022-06-26T06:51:31Z) - An Improved Analysis of Gradient Tracking for Decentralized Machine
Learning [34.144764431505486]
トレーニングデータが$n$エージェントに分散されるネットワーク上での分散機械学習を検討する。
エージェントの共通の目標は、すべての局所損失関数の平均を最小化するモデルを見つけることである。
ノイズのない場合、$p$を$mathcalO(p-1)$から$mathcalO(p-1)$に改善します。
論文 参考訳(メタデータ) (2022-02-08T12:58:14Z) - Towards an Understanding of Benign Overfitting in Neural Networks [104.2956323934544]
現代の機械学習モデルは、しばしば膨大な数のパラメータを使用し、通常、トレーニング損失がゼロになるように最適化されている。
ニューラルネットワークの2層構成において、これらの良質な過適合現象がどのように起こるかを検討する。
本稿では,2層型ReLUネットワーク補間器を極小最適学習率で実現可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T19:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。