論文の概要: Test time training enhances in-context learning of nonlinear functions
- arxiv url: http://arxiv.org/abs/2509.25741v1
- Date: Tue, 30 Sep 2025 03:56:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.417397
- Title: Test time training enhances in-context learning of nonlinear functions
- Title(参考訳): テストタイムトレーニングは非線形関数の文脈内学習を強化する
- Authors: Kento Kuwataka, Taiji Suzuki,
- Abstract要約: テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
- 参考スコア(独自算出の注目度): 51.56484100374058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time training (TTT) enhances model performance by explicitly updating designated parameters prior to each prediction to adapt to the test data. While TTT has demonstrated considerable empirical success, its theoretical underpinnings remain limited, particularly for nonlinear models. In this paper, we investigate the combination of TTT with in-context learning (ICL), where the model is given a few examples from the target distribution at inference time. We analyze this framework in the setting of single-index models $y=\sigma_*(\langle \beta, \mathbf{x} \rangle)$, where the feature vector $\beta$ is drawn from a hidden low-dimensional subspace. For single-layer transformers trained with gradient-based algorithms and adopting TTT, we establish an upper bound on the prediction risk. Our theory reveals that TTT enables the single-layer transformers to adapt to both the feature vector $\beta$ and the link function $\sigma_*$, which vary across tasks. This creates a sharp contrast with ICL alone, which is theoretically difficult to adapt to shifts in the link function. Moreover, we provide the convergence rate with respect to the data length, showing the predictive error can be driven arbitrarily close to the noise level as the context size and the network width grow.
- Abstract(参考訳): テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新し、テストデータに適応することで、モデルパフォーマンスを向上させる。
TTTは経験的成功をおさめているが、理論的な基盤は限定的であり、特に非線形モデルではそうである。
本稿では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
単一インデックスモデル $y=\sigma_*(\langle \beta, \mathbf{x} \rangle)$, ここで特徴ベクトル $\beta$ は隠れた低次元部分空間から引き出される。
勾配に基づくアルゴリズムとTTTを適用した単層変圧器では,予測リスクの上限を確立する。
我々の理論は、TTTが単一層変換器を機能ベクトル $\beta$ とリンク関数 $\sigma_*$ の両方に適応させることができることを明らかにしている。
これにより、ICL単独と鋭い対比が生じ、リンク関数のシフトに適応することが理論的に難しい。
さらに,データ長に対する収束率を示し,コンテキストサイズやネットワーク幅が大きくなるにつれて,予測誤差をノイズレベルに任意に近づけることができることを示す。
関連論文リスト
- Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models [64.02612380298228]
最近の研究は、テストタイムトレーニング(TTT)として知られる特定のタスクに対して、テストタイムでモデルをトレーニングし続けるというアイデアを探求している。
本稿では,TTTがグローバルトレーニングよりもはるかに小さな分布内テスト誤差を達成できるモデルを提案する。
我々は、ImageNet上でスパースオートエンコーダをトレーニングすることで、モデルの主要な仮定を実証的に検証する。
論文 参考訳(メタデータ) (2025-09-29T09:24:52Z) - Test-Time Adaptation with Binary Feedback [50.20923012663613]
BiTTAは、不確実なサンプルに対するバイナリフィードバック誘導適応と、確実な予測に対する合意に基づく自己適応のバランスをとる、新しいデュアルパス最適化フレームワークである。
実験の結果、BiTTAは最先端のベースラインよりも13.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-05-24T05:24:10Z) - BoTTA: Benchmarking on-device Test Time Adaptation [0.7278033100480175]
テスト時間適応(TTA)は、ラベル付きテストデータやオリジナルのトレーニングセットへのアクセスを必要とせずに、推論中にモデルを適用することでこの問題に対処する。
本稿では,モバイルおよびエッジデバイス上での実用的制約下でのTTA手法の評価を目的としたベンチマークであるBoTTAを提案する。
我々は,これらのシナリオ下での最先端のTTA手法をベンチマークデータセットを用いて評価し,実際のテストベッド上でシステムレベルのメトリクスを報告する。
論文 参考訳(メタデータ) (2025-04-14T12:00:00Z) - Test-Time Training Provably Improves Transformers as In-context Learners [49.09821664572445]
テキスト内学習のための勾配に基づくTTTアルゴリズムについて検討する。
テストプロンプトで提供されるコンテキスト内デモに対して,トランスフォーマーモデルをトレーニングする。
経験的貢献として,TabPFNに対するTTTの有用性について検討した。
論文 参考訳(メタデータ) (2025-03-14T20:06:37Z) - Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。
テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。
2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文 参考訳(メタデータ) (2024-04-21T08:20:02Z) - Optimization-Free Test-Time Adaptation for Cross-Person Activity
Recognition [30.350005654271868]
Test-Time Adaptationは、テストストリームを使用して、リアルタイムの推論で予測を調整することを目的としている。
計算コストが高いため、リソース制約のあるエッジデバイス上での動作が困難になる。
センサベースHARのための最適化自由テスト時間適応フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-28T02:20:33Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。