論文の概要: Test-Time Training Provably Improves Transformers as In-context Learners
- arxiv url: http://arxiv.org/abs/2503.11842v1
- Date: Fri, 14 Mar 2025 20:06:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:35:42.806568
- Title: Test-Time Training Provably Improves Transformers as In-context Learners
- Title(参考訳): 文脈内学習者として変圧器を多分改善するテストタイムトレーニング
- Authors: Halil Alperen Gozeten, M. Emrullah Ildiz, Xuechen Zhang, Mahdi Soltanolkotabi, Marco Mondelli, Samet Oymak,
- Abstract要約: テキスト内学習のための勾配に基づくTTTアルゴリズムについて検討する。
テストプロンプトで提供されるコンテキスト内デモに対して,トランスフォーマーモデルをトレーニングする。
経験的貢献として,TabPFNに対するTTTの有用性について検討した。
- 参考スコア(独自算出の注目度): 49.09821664572445
- License:
- Abstract: Test-time training (TTT) methods explicitly update the weights of a model to adapt to the specific test instance, and they have found success in a variety of settings, including most recently language modeling and reasoning. To demystify this success, we investigate a gradient-based TTT algorithm for in-context learning, where we train a transformer model on the in-context demonstrations provided in the test prompt. Specifically, we provide a comprehensive theoretical characterization of linear transformers when the update rule is a single gradient step. Our theory (i) delineates the role of alignment between pretraining distribution and target task, (ii) demystifies how TTT can alleviate distribution shift, and (iii) quantifies the sample complexity of TTT including how it can significantly reduce the eventual sample size required for in-context learning. As our empirical contribution, we study the benefits of TTT for TabPFN, a tabular foundation model. In line with our theory, we demonstrate that TTT significantly reduces the required sample size for tabular classification (3 to 5 times fewer) unlocking substantial inference efficiency with a negligible training cost.
- Abstract(参考訳): テストタイムトレーニング(TTT)メソッドは、特定のテストインスタンスに適応するために、モデルの重みを明示的に更新する。
この成功を実証するために,テストプロンプトで提供されるインコンテキスト実演のトランスフォーマーモデルをトレーニングする,インコンテキスト学習のための勾配に基づくTTTアルゴリズムについて検討する。
具体的には、更新規則が単一の勾配ステップである場合、線形変圧器の包括的理論的特徴付けを行う。
我が説
一 事前学習分布と目標課題の整合性の役割を明記すること。
(II)TTTが分散シフトを緩和し得るか、そして
3) TTTのサンプル複雑性を定量化し, テキスト内学習に必要なサンプルサイズを大幅に削減する方法について検討した。
実験的な貢献として,表層基礎モデルであるTabPFNに対するTTTの利点について検討した。
提案理論に則って,TTTは表型分類に必要なサンプルサイズ(3~5倍)を著しく削減し,無視できるトレーニングコストでかなりの推論効率を解放することを示した。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。
テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。
2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文 参考訳(メタデータ) (2024-04-21T08:20:02Z) - Active Test-Time Adaptation: Theoretical Analyses and An Algorithm [51.84691955495693]
テスト時間適応(TTA)は、教師なし設定でストリーミングテストデータの分散シフトに対処する。
完全TTA設定内に能動学習を統合する能動テスト時間適応(ATTA)の新たな問題設定を提案する。
論文 参考訳(メタデータ) (2024-04-07T22:31:34Z) - Test-Time Adaptation with Perturbation Consistency Learning [32.58879780726279]
そこで本研究では, 分布変化のあるサンプルに対して, 安定な予測を行うための簡易なテスト時間適応手法を提案する。
提案手法は,強力なPLMバックボーンよりも推論時間が少なく,高い,あるいは同等の性能を実現することができる。
論文 参考訳(メタデータ) (2023-04-25T12:29:22Z) - Improved Test-Time Adaptation for Domain Generalization [48.239665441875374]
テストタイムトレーニング(TTT)は、学習したモデルにテストデータを適用する。
この作業は2つの主な要因に対処する: テストフェーズ中にアップデートする信頼性のあるパラメータを更新および識別するための適切な補助的TTTタスクを選択する。
トレーニングされたモデルに適応パラメータを追加し、テストフェーズでのみ適応パラメータを更新することを提案する。
論文 参考訳(メタデータ) (2023-04-10T10:12:38Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [117.72709110877939]
テスト時間適応(TTA)は、事前訓練されたモデルをテスト中に、予測する前にラベルのないデータに適応する可能性がある。
TTAはテスト時間領域適応、テスト時間バッチ適応、オンラインテスト時間適応といったテストデータの形態に基づいて、いくつかの異なるグループに分類される。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Revisiting Realistic Test-Time Training: Sequential Inference and
Adaptation by Anchored Clustering Regularized Self-Training [37.75537703971045]
テスト時アンカークラスタリング(TTAC)アプローチを開発し,より強力なテスト時特徴学習を実現する。
自己学習(ST)はラベルのないデータから学ぶ上で大きな成功を収めた。
TTAC++は、5つのTTデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-03-20T04:30:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。