論文の概要: Standard Transformers Achieve the Minimax Rate in Nonparametric Regression with $C^{s,λ}$ Targets
- arxiv url: http://arxiv.org/abs/2602.20555v1
- Date: Tue, 24 Feb 2026 05:14:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.613576
- Title: Standard Transformers Achieve the Minimax Rate in Nonparametric Regression with $C^{s,λ}$ Targets
- Title(参考訳): C^{s,λ}=ターゲットを持つ非パラメトリック回帰における最小値率の標準変換器
- Authors: Yanming Lai, Defeng Sun,
- Abstract要約: 本稿では,標準変換器がHlder関数を近似できることを示す最初の研究である。
サイズと次元ベクトルの2つの指標を導入することにより、トランスフォーマー構造を微粒化することができる。
- 参考スコア(独自算出の注目度): 8.844802588836059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The tremendous success of Transformer models in fields such as large language models and computer vision necessitates a rigorous theoretical investigation. To the best of our knowledge, this paper is the first work proving that standard Transformers can approximate Hölder functions $ C^{s,λ}\left([0,1]^{d\times n}\right) $$ (s\in\mathbb{N}_{\geq0},0<λ\leq1) $ under the $L^t$ distance ($t \in [1, \infty]$) with arbitrary precision. Building upon this approximation result, we demonstrate that standard Transformers achieve the minimax optimal rate in nonparametric regression for Hölder target functions. It is worth mentioning that, by introducing two metrics: the size tuple and the dimension vector, we provide a fine-grained characterization of Transformer structures, which facilitates future research on the generalization and optimization errors of Transformers with different structures. As intermediate results, we also derive the upper bounds for the Lipschitz constant of standard Transformers and their memorization capacity, which may be of independent interest. These findings provide theoretical justification for the powerful capabilities of Transformer models.
- Abstract(参考訳): 大規模言語モデルやコンピュータビジョンといった分野におけるトランスフォーマーモデルの成功は、厳密な理論的調査を必要とする。
我々の知る限り、この論文は標準変換器が任意の精度でヘルダー関数 $ C^{s,λ}\left([0,1]^{d\times n}\right) $$ (s\in\mathbb{N}_{\geq0},0<λ\leq1) $L^t$ distance ($t \in [1, \infty]$) を近似できることを示す最初の研究である。
この近似結果に基づいて、Hölder対象関数に対する非パラメトリック回帰において、標準変換器が最小値最適率を達成することを示す。
サイズタプルと次元ベクトルの2つの指標を導入することで、トランスフォーマー構造の微粒化を図り、異なる構造を持つトランスフォーマーの一般化と最適化の誤差について将来の研究を促進することに留意すべきである。
中間結果として、標準変換器のリプシッツ定数の上界とその記憶能力も導出する。
これらの知見はトランスフォーマーモデルの強力な能力に関する理論的正当化を与える。
関連論文リスト
- Transformers as Measure-Theoretic Associative Memory: A Statistical Perspective and Minimax Optimality [52.424255020469595]
トランスフォーマーは、コンテント順応可能な検索とコンテキスト、原則として長さを活用できる能力を通じてエクササイズする。
確率尺度のレベルで連想記憶をリキャストし、コンテキストを無拘束トークン上の分布として扱う。
浅度測度理論変換器は入力密度のスペクトル仮定に基づいてリコール・アンド・予測マップを学習することを示す。
論文 参考訳(メタデータ) (2026-02-02T09:34:17Z) - Finite-Time Analysis of Gradient Descent for Shallow Transformers [16.566605776410068]
本研究では,トランスフォーマーの最適化環境が不適当であることから,トランスフォーマーの性能が向上する理由を考察する。
完全なコンテキストを維持するために、Transformerのメモリ要件は長さとともに増加する。
論文 参考訳(メタデータ) (2026-01-23T07:28:17Z) - Transformers Can Overcome the Curse of Dimensionality: A Theoretical Study from an Approximation Perspective [7.069772598731282]
Transformerモデルは自然言語処理などの機械学習の様々な応用分野で広く利用されている。
本稿では、変換器によるH'older連続関数クラス $mathcalH_Qbetaleft([0,1]dtimes n,mathbbRdtimes nright)$ の近似を調査し、次元性の呪いを克服できるいくつかの変換器を構築する。
論文 参考訳(メタデータ) (2025-04-18T08:56:53Z) - Provable Failure of Language Models in Learning Majority Boolean Logic via Gradient Descent [15.291830857281015]
勾配法を用いて学習すると,トランスフォーマーが真に単純な多数関数を学習できるかどうかを検討する。
我々の分析は、$mathrmpoly(d)$グラデーションクエリ後も、Transformerモデルの一般化誤差は依然としてかなり大きいことを証明している。
論文 参考訳(メタデータ) (2025-04-07T03:08:12Z) - On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Higher-Order Transformer Derivative Estimates for Explicit Pathwise Learning Guarantees [9.305677878388664]
本稿では, 変圧器モデルに対するすべての順序の高階微分を正確に推定することにより, 文献のギャップを埋める。
我々は,注目ヘッド数,各変圧器ブロックの深さと幅,正規化層数の観点から,すべての定数の完全明示的な推定値を得る。
実世界のトランスフォーマーは、1つのマルコフ過程の軌道のサンプルから$O(operatornamepolylog(N/sqrtN)$で学習することができる。
論文 参考訳(メタデータ) (2024-05-26T13:19:32Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。