論文の概要: A Statistical Analysis for Supervised Deep Learning with Exponential Families for Intrinsically Low-dimensional Data
- arxiv url: http://arxiv.org/abs/2412.09779v1
- Date: Fri, 13 Dec 2024 01:15:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:03:43.094234
- Title: A Statistical Analysis for Supervised Deep Learning with Exponential Families for Intrinsically Low-dimensional Data
- Title(参考訳): 固有低次元データに対する指数ファミリを用いた教師付き深層学習の統計的解析
- Authors: Saptarshi Chakraborty, Peter L. Bartlett,
- Abstract要約: 本研究では,指数関数系に従って説明変数が分散された場合の教師付き深層学習について考察する。
説明変数の上界密度を仮定すると、収束速度は $tildemathcalOleft(dfrac2lfloorbetarfloor(beta + d)2beta + dn-frac22beta + dn-frac22beta + dn-frac22beta + dn-frac22beta と特徴づけられる。
- 参考スコア(独自算出の注目度): 32.98264375121064
- License:
- Abstract: Recent advances have revealed that the rate of convergence of the expected test error in deep supervised learning decays as a function of the intrinsic dimension and not the dimension $d$ of the input space. Existing literature defines this intrinsic dimension as the Minkowski dimension or the manifold dimension of the support of the underlying probability measures, which often results in sub-optimal rates and unrealistic assumptions. In this paper, we consider supervised deep learning when the response given the explanatory variable is distributed according to an exponential family with a $\beta$-H\"older smooth mean function. We consider an entropic notion of the intrinsic data-dimension and demonstrate that with $n$ independent and identically distributed samples, the test error scales as $\tilde{\mathcal{O}}\left(n^{-\frac{2\beta}{2\beta + \bar{d}_{2\beta}(\lambda)}}\right)$, where $\bar{d}_{2\beta}(\lambda)$ is the $2\beta$-entropic dimension of $\lambda$, the distribution of the explanatory variables. This improves on the best-known rates. Furthermore, under the assumption of an upper-bounded density of the explanatory variables, we characterize the rate of convergence as $\tilde{\mathcal{O}}\left( d^{\frac{2\lfloor\beta\rfloor(\beta + d)}{2\beta + d}}n^{-\frac{2\beta}{2\beta + d}}\right)$, establishing that the dependence on $d$ is not exponential but at most polynomial. We also demonstrate that when the explanatory variable has a lower bounded density, this rate in terms of the number of data samples, is nearly optimal for learning the dependence structure for exponential families.
- Abstract(参考訳): 近年の進歩は、深い教師付き学習におけるテスト誤差の収束率が、入力空間の次元$d$ではなく、本質的な次元の関数として崩壊することを明らかにしている。
既存の文献では、この本質的な次元をミンコフスキー次元または基礎となる確率測度のサポートの多様体次元と定義しており、これはしばしば準最適率と非現実的な仮定をもたらす。
本稿では,説明変数が与えられた応答が,$\beta$-H\" なスムーズな平均関数を持つ指数族に従って分布する場合に,教師付きディープラーニングを考慮する。
固有データ次元のエントロピーの概念を考察し、$n$独立で同一に分散されたサンプルを用いて、テストエラーは$\tilde{\mathcal{O}}\left(n^{-\frac{2\beta}{2\beta + \bar{d}_{2\beta}(\lambda)}}\right)$、$\bar{d}_{2\beta}(\lambda)$は$2\beta$-エントロピー次元であり、説明変数の分布である$\lambda$であることを示す。
これにより、最もよく知られたレートが向上する。
さらに、説明変数の上限密度を仮定すると、収束の速度は $\tilde{\mathcal{O}}\left(d^{\frac{2\lfloor\beta\rfloor(\beta + d)}{2\beta + d}}n^{-\frac{2\beta}{2\beta + d}}\right)$ として特徴づけられ、$d$ への依存は指数関数ではなく、ほとんどの多項式において指数関数的である。
また、説明変数が有界密度が低い場合、データサンプル数の観点から、この速度が指数関数族に対する依存構造を学ぶのにほぼ最適であることを示す。
関連論文リスト
- A Statistical Analysis of Deep Federated Learning for Intrinsically Low-dimensional Data [32.98264375121064]
Federated Learning (FL)は、協調機械学習における画期的なパラダイムとして登場した。
本稿では,2段階サンプリングモデルにおけるディープフェデレート回帰の一般化特性について検討する。
論文 参考訳(メタデータ) (2024-10-28T01:36:25Z) - Kernel Density Estimators in Large Dimensions [9.299356601085586]
カーネルによる密度$hatrho_hmathcal D(x)=frac1n hdsum_i=1n Kleft(fracx-y_ihright)$の推定は帯域幅$h$に依存する。
本稿では,Kullback-Leibler分散に基づく帯域幅の最適しきい値が,本論文で同定された新しい統計体系に含まれることを示す。
論文 参考訳(メタデータ) (2024-08-11T15:56:44Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Convergence Analysis of Probability Flow ODE for Score-based Generative Models [5.939858158928473]
確率フローODEに基づく決定論的サンプリング器の収束特性を理論的・数値的両面から検討する。
連続時間レベルでは、ターゲットと生成されたデータ分布の総変動を$mathcalO(d3/4delta1/2)$で表すことができる。
論文 参考訳(メタデータ) (2024-04-15T12:29:28Z) - Effective Minkowski Dimension of Deep Nonparametric Regression: Function
Approximation and Statistical Theories [70.90012822736988]
ディープ非パラメトリック回帰に関する既存の理論は、入力データが低次元多様体上にある場合、ディープニューラルネットワークは本質的なデータ構造に適応できることを示した。
本稿では,$mathcalS$で表される$mathbbRd$のサブセットに入力データが集中するという緩和された仮定を導入する。
論文 参考訳(メタデータ) (2023-06-26T17:13:31Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Locality defeats the curse of dimensionality in convolutional
teacher-student scenarios [69.2027612631023]
学習曲線指数$beta$を決定する上で,局所性が重要であることを示す。
我々は、自然の仮定を用いて、トレーニングセットのサイズに応じて減少するリッジでカーネルレグレッションを実行すると、リッジレスの場合と同じような学習曲線指数が得られることを証明して結論付けた。
論文 参考訳(メタデータ) (2021-06-16T08:27:31Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z) - Inference on the change point in high dimensional time series models via
plug in least squares [2.7718973516070684]
本研究では,変化が高次元ランダムベクトルの平均となる点パラメータの最小2乗推定器について検討する。
この推定器が平均パラメータの推定におけるプラグに対する十分な適応性を持つ十分な条件を得る。
論文 参考訳(メタデータ) (2020-07-03T18:08:12Z) - A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian
Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。
この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文 参考訳(メタデータ) (2020-06-09T02:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。