論文の概要: Approximation Bounds for Transformer Networks with Application to Regression
- arxiv url: http://arxiv.org/abs/2504.12175v1
- Date: Wed, 16 Apr 2025 15:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 14:37:23.978322
- Title: Approximation Bounds for Transformer Networks with Application to Regression
- Title(参考訳): 変圧器ネットワークの近似境界と回帰への応用
- Authors: Yuling Jiao, Yanming Lai, Defeng Sun, Yang Wang, Bokai Yan,
- Abstract要約: H"older 関数と Sobolev 関数に対する Transformer ネットワークの近似機能について検討する。
シーケンス・ツー・シーケンス・マッピングを近似した標準トランスフォーマー・ネットワークのための新しい上限を確立する。
トランスフォーマーの自己アテンション層がカラム平均化を行うことができれば,ネットワークはシーケンス・ツー・シーケンスのH"older関数を近似することができることを示す。
- 参考スコア(独自算出の注目度): 9.549045683389085
- License:
- Abstract: We explore the approximation capabilities of Transformer networks for H\"older and Sobolev functions, and apply these results to address nonparametric regression estimation with dependent observations. First, we establish novel upper bounds for standard Transformer networks approximating sequence-to-sequence mappings whose component functions are H\"older continuous with smoothness index $\gamma \in (0,1]$. To achieve an approximation error $\varepsilon$ under the $L^p$-norm for $p \in [1, \infty]$, it suffices to use a fixed-depth Transformer network whose total number of parameters scales as $\varepsilon^{-d_x n / \gamma}$. This result not only extends existing findings to include the case $p = \infty$, but also matches the best known upper bounds on number of parameters previously obtained for fixed-depth FNNs and RNNs. Similar bounds are also derived for Sobolev functions. Second, we derive explicit convergence rates for the nonparametric regression problem under various $\beta$-mixing data assumptions, which allow the dependence between observations to weaken over time. Our bounds on the sample complexity impose no constraints on weight magnitudes. Lastly, we propose a novel proof strategy to establish approximation bounds, inspired by the Kolmogorov-Arnold representation theorem. We show that if the self-attention layer in a Transformer can perform column averaging, the network can approximate sequence-to-sequence H\"older functions, offering new insights into the interpretability of self-attention mechanisms.
- Abstract(参考訳): 我々は,H\ と Sobolev 関数に対する Transformer ネットワークの近似機能について検討し,これらの結果を非パラメトリック回帰推定に応用する。
まず、成分関数が滑らか度指数$\gamma \in (0,1]$でH\"older continuousであるようなシーケンス・ツー・シーケンスマッピングを近似する標準トランスフォーマーネットワークのための新しい上限を確立する。
近似誤差$\varepsilon$を$L^p$-norm for $p \in [1, \infty]$で達成するには、パラメータの総数が$\varepsilon^{-d_x n / \gamma}$としてスケールする固定深度トランスフォーマーネットワークを使用することが十分である。
この結果は、既存の発見を$p = \infty$を含むように拡張するだけでなく、固定深度FNNやRNNで得られたパラメータの数を最もよく知られた上限と一致させる。
同様の境界もソボレフ函数に対して導かれる。
第二に、様々な$\beta$-mixingデータ仮定の下での非パラメトリック回帰問題に対する明示的な収束率を導出し、時間とともに観測間の依存が弱まるようにする。
サンプルの複雑さに対する我々の限界は、重さの等級に制約を課さない。
最後に、コルモゴロフ・アルノルドの表現定理に触発された近似境界を確立するための新しい証明戦略を提案する。
トランスフォーマーの自己アテンション層がカラム平均化を行うことができれば、ネットワークはシーケンスからシーケンスまでのH\"older関数を近似することができ、自己アテンション機構の解釈可能性に関する新たな洞察を提供する。
関連論文リスト
- Data subsampling for Poisson regression with pth-root-link [53.63838219437508]
ポアソン回帰のためのデータサブサンプリング手法を開発し解析する。
特に,ポアソン一般化線形モデルと ID-および平方根リンク関数について考察する。
論文 参考訳(メタデータ) (2024-10-30T10:09:05Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - A Mean-Field Analysis of Neural Stochastic Gradient Descent-Ascent for Functional Minimax Optimization [90.87444114491116]
本稿では,超パラメトリック化された2層ニューラルネットワークの無限次元関数クラス上で定義される最小最適化問題について検討する。
i) 勾配降下指数アルゴリズムの収束と, (ii) ニューラルネットワークの表現学習に対処する。
その結果、ニューラルネットワークによって誘導される特徴表現は、ワッサーシュタイン距離で測定された$O(alpha-1)$で初期表現から逸脱することが許された。
論文 参考訳(メタデータ) (2024-04-18T16:46:08Z) - Analysis of the expected $L_2$ error of an over-parametrized deep neural
network estimate learned by gradient descent without regularization [7.977229957867868]
近年の研究では、正規化された経験的リスクに勾配降下を適用して学習した過度パラメータ化されたディープニューラルネットワークによって定義される推定値が、普遍的に一貫していることが示されている。
本稿では、同様の結果を得るために正規化項は必要ないことを示す。
論文 参考訳(メタデータ) (2023-11-24T17:04:21Z) - A Law of Robustness beyond Isoperimetry [84.33752026418045]
我々は、任意の分布上でニューラルネットワークパラメータを補間する頑健性の低い$Omega(sqrtn/p)$を証明した。
次に、$n=mathrmpoly(d)$のとき、スムーズなデータに対する過度なパラメータ化の利点を示す。
我々は、$n=exp(omega(d))$ のとき、$O(1)$-Lipschitz の頑健な補間関数の存在を否定する。
論文 参考訳(メタデータ) (2022-02-23T16:10:23Z) - Last iterate convergence of SGD for Least-Squares in the Interpolation
regime [19.05750582096579]
基本最小二乗構成におけるノイズレスモデルについて検討する。
最適予測器が完全に入力に適合すると仮定し、$langletheta_*, phi(X) rangle = Y$, ここで$phi(X)$は無限次元の非線型特徴写像を表す。
論文 参考訳(メタデータ) (2021-02-05T14:02:20Z) - Tight Nonparametric Convergence Rates for Stochastic Gradient Descent
under the Noiseless Linear Model [0.0]
このモデルに基づく最小二乗リスクに対する1パス, 固定段差勾配勾配の収束度を解析した。
特殊な場合として、ランダムなサンプリング点における値のノイズのない観測から単位区間上の実関数を推定するオンラインアルゴリズムを解析する。
論文 参考訳(メタデータ) (2020-06-15T08:25:50Z) - A Random Matrix Analysis of Random Fourier Features: Beyond the Gaussian
Kernel, a Precise Phase Transition, and the Corresponding Double Descent [85.77233010209368]
本稿では、データサンプルの数が$n$である現実的な環境で、ランダムフーリエ(RFF)回帰の正確さを特徴付けます。
この分析はまた、大きな$n,p,N$のトレーニングとテスト回帰エラーの正確な推定も提供する。
論文 参考訳(メタデータ) (2020-06-09T02:05:40Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Consistent Online Gaussian Process Regression Without the Sample
Complexity Bottleneck [14.309243378538012]
本稿では,現在の後方中心のHellingerメトリックに対して,エラー近傍を修正可能なオンライン圧縮方式を提案する。
一定の誤差半径の場合、POG は集団後部の近傍 (Theorem 1(ii)) に収束するが、特徴空間の計量エントロピーによって決定される有限メモリのオン・ウォーストに収束する。
論文 参考訳(メタデータ) (2020-04-23T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。