論文の概要: Approximation Error Upper and Lower Bounds for Hölder Class with Transformers
- arxiv url: http://arxiv.org/abs/2605.07463v1
- Date: Fri, 08 May 2026 09:10:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.939855
- Title: Approximation Error Upper and Lower Bounds for Hölder Class with Transformers
- Title(参考訳): 変圧器を有するヘルダー類に対する近似誤差の上限値と下限値
- Authors: Xin He, Yuling Jiao, Xiliang Lu, Jerry Zhijian Yang,
- Abstract要約: ソフトマックス演算子、ReLUアクティベーション関数、残差接続を備えた標準トランスフォーマーアーキテクチャに対して、新しい近似上界を導出する。
我々は,少なくとも$mathcalO(varepsilon-d_0/)$ブロックからなるTransformerネットワークが任意の有界Hlder関数を近似可能であることを証明した。
近似下界の場合、VC次元上界を利用して、変換器が少なくとも$(varepsilon-d_0/(4))を要求することを厳格に証明するのは初めてである。
- 参考スコア(独自算出の注目度): 22.477358103223036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the expressive power of Transformers by establishing precise approximation error upper and lower bounds for Hölder class. Specifically, a new approximation upper bound is derived for the standard Transformer architecture equipped with Softmax operators, ReLU activation functions, and residual connections. We prove that a Transformer network composed of at most $\mathcal{O}(\varepsilon^{-{d_{0}}/α})$ blocks can approximate any bounded Hölder function with $d_{0}$-dimensional input and smoothness $α\in(0,1]$ under any accuracy $\varepsilon>0$. In the case of approximation lower bounds, leveraging the VC-dimension upper bound, we are the first to rigorously prove that Transformers demand for at least $Ω(\varepsilon^{-{d_{0}}/({4α})})$ blocks to achieve the $\varepsilon$ approximation accuracy. As a final step, we extend the derived results for standard Transformers to a general regression task and establish the corresponding excess risk rates demonstrating Transformers' empirical effectiveness in real-world settings.
- Abstract(参考訳): 我々は、Hölderクラスに対する正確な近似誤差を上と下の境界に設定することにより、トランスフォーマーの表現力を探る。
具体的には、Softmax演算子、ReLUアクティベーション関数、残コネクションを備えた標準トランスフォーマーアーキテクチャに対して、新しい近似上限を導出する。
我々は、少なくとも$\mathcal{O}(\varepsilon^{-{d_{0}}/α})$ブロックからなるトランスフォーマーネットワークが、任意の精度$\varepsilon>0$の下で、$d_{0}$次元入力と滑らかさ$α\in(0,1]$で任意の有界ヘルダー関数を近似できることを証明した。
近似下界の場合、VC次元上界を利用して、変換器が少なくとも$Ω(\varepsilon^{-{d_{0}}/({4α})} のブロックを要求することを厳密に証明し、$\varepsilon$近似精度を得る。
最後のステップとして、標準変圧器の導出結果を一般的な回帰タスクに拡張し、実世界における変圧器の実証的有効性を示す余剰リスク率を確立する。
関連論文リスト
- Standard Transformers Achieve the Minimax Rate in Nonparametric Regression with $C^{s,λ}$ Targets [8.844802588836059]
本稿では,標準変換器がHlder関数を近似できることを示す最初の研究である。
サイズと次元ベクトルの2つの指標を導入することにより、トランスフォーマー構造を微粒化することができる。
論文 参考訳(メタデータ) (2026-02-24T05:14:01Z) - Scaling Diffusion Transformers Efficiently via $μ$P [61.13987622359833]
最小更新パラメトリゼーション(mu$P)は、小さな言語モデルから大規模な言語モデルへの安定したHP転送を可能にするバニラトランスフォーマーに対して提案された。
拡散変換器に標準の$mu$Pを一般化し、大規模実験によりその有効性を検証する。
論文 参考訳(メタデータ) (2025-05-21T08:49:03Z) - Transformers Can Overcome the Curse of Dimensionality: A Theoretical Study from an Approximation Perspective [7.069772598731282]
Transformerモデルは自然言語処理などの機械学習の様々な応用分野で広く利用されている。
本稿では、変換器によるH'older連続関数クラス $mathcalH_Qbetaleft([0,1]dtimes n,mathbbRdtimes nright)$ の近似を調査し、次元性の呪いを克服できるいくつかの変換器を構築する。
論文 参考訳(メタデータ) (2025-04-18T08:56:53Z) - Approximation Bounds for Transformer Networks with Application to Regression [9.549045683389085]
H"older 関数と Sobolev 関数に対する Transformer ネットワークの近似機能について検討する。
シーケンス・ツー・シーケンス・マッピングを近似した標準トランスフォーマー・ネットワークのための新しい上限を確立する。
トランスフォーマーの自己アテンション層がカラム平均化を行うことができれば,ネットワークはシーケンス・ツー・シーケンスのH"older関数を近似することができることを示す。
論文 参考訳(メタデータ) (2025-04-16T15:25:58Z) - Circuit Complexity Bounds for RoPE-based Transformer Architecture [25.2590541420499]
経験的証拠は、$mathsfRoPE$ベースのTransformerアーキテクチャは、従来のTransformerモデルよりも優れた一般化能力を示していることを示している。
我々は、$mathsfTC0 = mathsfNC1$, a $mathsfRoPE$-based Transformer with $mathrmpoly(n)$-precision, $O(1)$ layer, hidden dimension $d leq O(n)$が算術式評価問題を解くことができないことを示す。
論文 参考訳(メタデータ) (2024-11-12T07:24:41Z) - Higher-Order Transformer Derivative Estimates for Explicit Pathwise Learning Guarantees [9.305677878388664]
本稿では, 変圧器モデルに対するすべての順序の高階微分を正確に推定することにより, 文献のギャップを埋める。
我々は,注目ヘッド数,各変圧器ブロックの深さと幅,正規化層数の観点から,すべての定数の完全明示的な推定値を得る。
実世界のトランスフォーマーは、1つのマルコフ過程の軌道のサンプルから$O(operatornamepolylog(N/sqrtN)$で学習することができる。
論文 参考訳(メタデータ) (2024-05-26T13:19:32Z) - Chain of Thought Empowers Transformers to Solve Inherently Serial Problems [57.58801785642868]
思考の連鎖(CoT)は、算術や記号的推論タスクにおいて、大きな言語モデル(LLM)の精度を向上させるための非常に効果的な方法である。
この研究は、表現性のレンズを通してデコーダのみの変換器に対するCoTのパワーを理論的に理解する。
論文 参考訳(メタデータ) (2024-02-20T10:11:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。