論文の概要: Efficient and Minimax-optimal In-context Nonparametric Regression with Transformers
- arxiv url: http://arxiv.org/abs/2601.15014v1
- Date: Wed, 21 Jan 2026 14:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.386788
- Title: Efficient and Minimax-optimal In-context Nonparametric Regression with Transformers
- Title(参考訳): 変圧器を用いた高効率・極小最適インコンテキスト非パラメトリック回帰
- Authors: Michelle Ching, Ioana Popescu, Nico Smith, Tianyi Ma, William G. Underwood, Richard J. Samworth,
- Abstract要約: 我々は、$(log n)パラメータと$bigl(n2/(2+d)log3 nbigr)$事前学習列を持つ事前学習変換器が、最小収束率を達成できることを証明する。
- 参考スコア(独自算出の注目度): 5.687100661457289
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study in-context learning for nonparametric regression with $α$-Hölder smooth regression functions, for some $α>0$. We prove that, with $n$ in-context examples and $d$-dimensional regression covariates, a pretrained transformer with $Θ(\log n)$ parameters and $Ω\bigl(n^{2α/(2α+d)}\log^3 n\bigr)$ pretraining sequences can achieve the minimax-optimal rate of convergence $O\bigl(n^{-2α/(2α+d)}\bigr)$ in mean squared error. Our result requires substantially fewer transformer parameters and pretraining sequences than previous results in the literature. This is achieved by showing that transformers are able to approximate local polynomial estimators efficiently by implementing a kernel-weighted polynomial basis and then running gradient descent.
- Abstract(参考訳): 約$α>0$に対して,$α$-Hölderスムーズ回帰関数を用いた非パラメトリック回帰に対する文脈内学習について検討した。
我々は、$n$ in-contextの例と$d$-dimensional回帰共変体により、平均二乗誤差における$O\bigl(n^{-2α/(2α+d)}\bigr)$平均二乗誤差における$O\bigl(n^{-2α/(2α+d)}\bigr)$の最小最適値が得られることを証明した。
本研究の結果は,従来の文献と比較すると,トランスフォーマーパラメータと事前学習シーケンスを著しく少なくする必要がある。
これは、変換器がカーネル重み付き多項式基底を実装し、勾配降下を実行することで、局所多項式推定器を効率的に近似できることを示す。
関連論文リスト
- INC: An Indirect Neural Corrector for Auto-Regressive Hybrid PDE Solvers [61.84396402100827]
本稿では,学習した補正を支配方程式に統合する間接ニューラルコレクタ(mathrmINC$)を提案する。
$mathrmINC$は、$t-1 + L$の順番でエラー増幅を減らし、$t$はタイムステップ、$L$はリプシッツ定数である。
大規模なベンチマークで$mathrmINC$をテストし、1Dカオスシステムから3D乱流まで、多くの異なる解法、神経バックボーン、テストケースをカバーした。
論文 参考訳(メタデータ) (2025-11-16T20:14:28Z) - Scale-Invariant Regret Matching and Online Learning with Optimal Convergence: Bridging Theory and Practice in Zero-Sum Games [60.871651115241406]
ゼロサムゲームにおける理論と実践の間、何十年にもわたってかなりのシャズムが一階法によって浸食されてきた。
我々は、IREG-PRM$+$と呼ぶPRM$+$の新しいスケール不変かつパラメータフリーな変種を提案する。
ベンチマークゲームでは, PRM$+$と同等でありながら, 最適収束保証を$T-1/2$, $T-1$とする。
論文 参考訳(メタデータ) (2025-10-06T00:33:20Z) - Pretrained transformer efficiently learns low-dimensional target functions in-context [40.77319247558742]
勾配降下により最適化された非線形変換器は、ターゲット関数の分布の次元にのみ依存するプロンプト長を持つ、$f_*$ in-contextを学習する。
本結果は,事前学習した変換器の関数クラスの低次元構造への適応性を強調し,サンプル効率の良いICLを実現する。
論文 参考訳(メタデータ) (2024-11-04T19:24:39Z) - In-context Learning for Mixture of Linear Regressions: Existence, Generalization and Training Dynamics [34.458004744956334]
高い確率で$mathcalO(sqrtd/n)$の予測誤差を達成できる変換器が存在することを証明した。
また, 1 つの線形自己アテンション層を持つ変圧器のトレーニング力学を解析し, 適切なパラメータで, 人口平均平方損失に対する勾配流の最適化が大域的最適に収束することを示した。
論文 参考訳(メタデータ) (2024-10-18T05:28:47Z) - Nonsmooth Nonparametric Regression via Fractional Laplacian Eigenmaps [14.003044924094597]
真の回帰関数が必ずしも滑らかでない場合に、非パラメトリック回帰法を開発する。
より具体的には、我々のアプローチは分数ラプラシアンを使い、真の回帰関数が次数$sin (0,1)$のソボレフ空間にある場合を扱うように設計されている。
論文 参考訳(メタデータ) (2024-02-22T21:47:29Z) - Almost Linear Constant-Factor Sketching for $\ell_1$ and Logistic
Regression [74.28017932704704]
我々は,従来の難解なスケッチとターンタイルストリーミングの結果を$ell_1$とロジスティック回帰で改善する。
また、入力空間の間隔で1+varepsilon$近似を出力するトレードオフも行います。
我々のスケッチは、データ依存正規化器が個々のロジスティック損失の分散に対応するような、正規化されたロジスティック回帰を近似するために拡張することができる。
論文 参考訳(メタデータ) (2023-03-31T18:12:33Z) - Generalization and Stability of Interpolating Neural Networks with
Minimal Width [37.908159361149835]
補間系における勾配によって訓練された浅層ニューラルネットワークの一般化と最適化について検討する。
トレーニング損失数は$m=Omega(log4 (n))$ニューロンとニューロンを最小化する。
m=Omega(log4 (n))$のニューロンと$Tapprox n$で、テスト損失のトレーニングを$tildeO (1/)$に制限します。
論文 参考訳(メタデータ) (2023-02-18T05:06:15Z) - Mixability made efficient: Fast online multiclass logistic regression [68.8204255655161]
我々は、混合性は最適な後悔を伴うアルゴリズムを得るための強力なツールであることを示した。
結果として得られる手法は、しばしば計算の複雑さに悩まされ、実用性が低下した。
論文 参考訳(メタデータ) (2021-10-08T08:22:05Z) - Online nonparametric regression with Sobolev kernels [99.12817345416846]
我々は、ソボレフ空間のクラス上の後悔の上限を$W_pbeta(mathcalX)$, $pgeq 2, beta>fracdp$ とする。
上界は minimax regret analysis で支えられ、$beta> fracd2$ または $p=infty$ の場合、これらの値は(本質的に)最適である。
論文 参考訳(メタデータ) (2021-02-06T15:05:14Z) - Truncated Linear Regression in High Dimensions [26.41623833920794]
truncated linear regression において、従属変数 $(A_i, y_i)_i$ は $y_i= A_irm T cdot x* + eta_i$ は固定された未知の興味ベクトルである。
目標は、$A_i$とノイズ分布に関するいくつかの好ましい条件の下で$x*$を回復することである。
我々は、$k$-sparse $n$-dimensional vectors $x*$ from $m$ truncated sample。
論文 参考訳(メタデータ) (2020-07-29T00:31:34Z) - Optimal Robust Linear Regression in Nearly Linear Time [97.11565882347772]
学習者が生成モデル$Y = langle X,w* rangle + epsilon$から$n$のサンプルにアクセスできるような高次元頑健な線形回帰問題について検討する。
i) $X$ is L4-L2 hypercontractive, $mathbbE [XXtop]$ has bounded condition number and $epsilon$ has bounded variance, (ii) $X$ is sub-Gaussian with identity second moment and $epsilon$ is
論文 参考訳(メタデータ) (2020-07-16T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。