論文の概要: Provable test-time adaptivity and distributional robustness of in-context learning
- arxiv url: http://arxiv.org/abs/2510.23254v1
- Date: Mon, 27 Oct 2025 12:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.54214
- Title: Provable test-time adaptivity and distributional robustness of in-context learning
- Title(参考訳): 文脈内学習における確率的テスト時間適応性と分布ロバスト性
- Authors: Tianyi Ma, Tengyao Wang, Richard J. Samworth,
- Abstract要約: 混合分布$pi=sum_alphainmathcalA lambda_alpha pi_alpha$。
十分なデータに基づいて事前訓練された大きな変換器が、困難度$$beta$に対応する収束率の最適値を達成することを証明した。
- 参考スコア(独自算出の注目度): 7.8103599113080255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study in-context learning problems where a Transformer is pretrained on tasks drawn from a mixture distribution $\pi=\sum_{\alpha\in\mathcal{A}} \lambda_{\alpha} \pi_{\alpha}$, called the pretraining prior, in which each mixture component $\pi_{\alpha}$ is a distribution on tasks of a specific difficulty level indexed by $\alpha$. Our goal is to understand the performance of the pretrained Transformer when evaluated on a different test distribution $\mu$, consisting of tasks of fixed difficulty $\beta\in\mathcal{A}$, and with potential distribution shift relative to $\pi_\beta$, subject to the chi-squared divergence $\chi^2(\mu,\pi_{\beta})$ being at most $\kappa$. In particular, we consider nonparametric regression problems with random smoothness, and multi-index models with random smoothness as well as random effective dimension. We prove that a large Transformer pretrained on sufficient data achieves the optimal rate of convergence corresponding to the difficulty level $\beta$, uniformly over test distributions $\mu$ in the chi-squared divergence ball. Thus, the pretrained Transformer is able to achieve faster rates of convergence on easier tasks and is robust to distribution shift at test time. Finally, we prove that even if an estimator had access to the test distribution $\mu$, the convergence rate of its expected risk over $\mu$ could not be faster than that of our pretrained Transformers, thereby providing a more appropriate optimality guarantee than minimax lower bounds.
- Abstract(参考訳): 混合分布$\pi=\sum_{\alpha\in\mathcal{A}} \lambda_{\alpha} \pi_{\alpha}$は、各混合成分$\pi_{\alpha}$は、$\alpha$でインデックス付けされた特定の困難レベルのタスクの分布である。
我々のゴールは、異なるテストディストリビューション上で評価された事前トレーニングされたTransformerのパフォーマンスを理解することである。$\mu$。これは、固定困難のタスクからなる$\beta\in\mathcal{A}$と、Chi-squared divergence$\chi^2(\mu,\pi_{\beta})$が最大$\kappa$となる確率分布シフトを持つ。
特に、ランダムな滑らかさを伴う非パラメトリック回帰問題と、ランダムな滑らかさとランダムな有効次元を持つマルチインデックスモデルを考える。
十分なデータに基づいて事前訓練された大きなトランスフォーマーは、カイ二乗発散球におけるテスト分布$\mu$に対して、困難度$\beta$に対応する収束の最適率を達成することを証明した。
このように、事前訓練されたTransformerは、より簡単なタスクの収束速度を向上することができ、テスト時の分散シフトに対して堅牢である。
最後に、推定器がテスト分布に$\mu$をアクセスしたとしても、予測されるリスクの収束率は、事前訓練されたトランスフォーマーよりも高速でないことを証明し、最小限の下位境界よりも適切な最適性を保証する。
関連論文リスト
- Sequential 1-bit Mean Estimation with Near-Optimal Sample Complexity [32.65125292684608]
1ビット通信制約を用いた分散平均推定問題について検討する。
私たちの推定器は、有界平均$-lambda le mathbbE(X) le lambda $)と変数$mathrmVar(X) le sigma2$)を持つすべてのディストリビューションに対して$(epsilon, delta)$-PACです。
論文 参考訳(メタデータ) (2025-09-26T06:22:57Z) - Proving the Limited Scalability of Centralized Distributed Optimization via a New Lower Bound Construction [57.93371273485736]
我々は、すべての労働者が同一の分布にアクセスする均質な(すなわちd.d.)場合であっても、すべての労働者が非バイアス付き境界 LDeltaepsilon2,$$$$$ のポリ対数的により良いポリ対数を求める集中型分散学習環境を考える。
論文 参考訳(メタデータ) (2025-06-30T13:27:39Z) - Towards Better Understanding of In-Context Learning Ability from In-Context Uncertainty Quantification [7.869708570399577]
条件付き期待値 $mathbbE[Y|X]$ と条件付き分散 Var$(Y|X)$ の両方を予測する双目的予測タスクを考える。
理論的には、トレーニングされたトランスフォーマーがベイズ最適付近に到達し、トレーニング分布の情報の利用が示唆される。
論文 参考訳(メタデータ) (2024-05-24T00:08:55Z) - Testable Learning with Distribution Shift [9.036777309376697]
分散シフトを伴うテスト可能学習と呼ばれる新しいモデルを定義する。
テスト分布上の分類器の性能を証明可能なアルゴリズムを得る。
ハーフスペースやハーフスペースの交点,決定木といった概念クラスを学ぶ上で,いくつかの肯定的な結果が得られる。
論文 参考訳(メタデータ) (2023-11-25T23:57:45Z) - Statistical Learning under Heterogeneous Distribution Shift [71.8393170225794]
ground-truth predictor is additive $mathbbE[mathbfz mid mathbfx,mathbfy] = f_star(mathbfx) +g_star(mathbfy)$.
論文 参考訳(メタデータ) (2023-02-27T16:34:21Z) - Generalized Differentiable RANSAC [95.95627475224231]
$nabla$-RANSACは、ランダム化された堅牢な推定パイプライン全体を学ぶことができる、微分可能なRANSACである。
$nabla$-RANSACは、精度という点では最先端のシステムよりも優れているが、精度は低い。
論文 参考訳(メタデータ) (2022-12-26T15:13:13Z) - Optimal Sub-Gaussian Mean Estimation in $\mathbb{R}$ [5.457150493905064]
ガウス下収束を考慮した新しい推定器を提案する。
我々の推定器はその分散に関する事前の知識を必要としない。
我々の推定器の構成と分析は、他の問題に一般化可能なフレームワークを提供する。
論文 参考訳(メタデータ) (2020-11-17T02:47:24Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。