論文の概要: Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models
- arxiv url: http://arxiv.org/abs/2509.24510v1
- Date: Mon, 29 Sep 2025 09:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.896777
- Title: Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models
- Title(参考訳): 一般化後のスペシャライゼーション:基礎モデルにおけるテストタイムトレーニングの理解に向けて
- Authors: Jonas Hübotter, Patrik Wolf, Alexander Shevchenko, Dennis Jüni, Andreas Krause, Gil Kur,
- Abstract要約: 最近の研究は、テストタイムトレーニング(TTT)として知られる特定のタスクに対して、テストタイムでモデルをトレーニングし続けるというアイデアを探求している。
本稿では,TTTがグローバルトレーニングよりもはるかに小さな分布内テスト誤差を達成できるモデルを提案する。
我々は、ImageNet上でスパースオートエンコーダをトレーニングすることで、モデルの主要な仮定を実証的に検証する。
- 参考スコア(独自算出の注目度): 64.02612380298228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent empirical studies have explored the idea of continuing to train a model at test-time for a given task, known as test-time training (TTT), and have found it to yield significant performance improvements. However, there is limited understanding of why and when TTT is effective. Earlier explanations mostly focused on the observation that TTT may help when applied to out-of-distribution adaptation or used with privileged data. However, the growing scale of foundation models with most test data being in-distribution questions these explanations. We instead posit that foundation models remain globally underparameterized, with TTT providing a mechanism for specialization after generalization, focusing capacity on concepts relevant to the test task. Specifically, under the linear representation hypothesis, we propose a model in which TTT achieves a substantially smaller in-distribution test error than global training. We empirically validate our model's key assumptions by training a sparse autoencoder on ImageNet, showing that semantically related data points are explained by only a few shared concepts. Finally, we perform scaling studies across image and language tasks that confirm the practical implications of our model, identifying the regimes where specialization is most effective.
- Abstract(参考訳): 最近の実証研究は、テストタイムトレーニング(TTT)として知られる特定のタスクに対して、テストタイムでモデルをトレーニングし続けるというアイデアを探求し、大きなパフォーマンス改善をもたらすことを発見した。
しかし、TTが有効である理由と時期については限定的な理解がある。
以前の説明は、TTTがアウト・オブ・ディストリビューション・アダプションに適用されたり、特権データで使用される場合に役立つという観察に主に焦点を当てていた。
しかし、ほとんどのテストデータが流通している基礎モデルの規模が大きくなるにつれて、これらの説明は疑問視される。
その代わりに、基礎モデルが世界規模で過小評価され続け、TTTは一般化後の特殊化のメカニズムを提供し、テストタスクに関連する概念に焦点を当てていると仮定する。
具体的には、線形表現仮説の下で、TTTがグローバルトレーニングよりもはるかに小さな分布内テスト誤差を達成できるモデルを提案する。
我々は、ImageNet上でスパースオートエンコーダをトレーニングすることで、モデルの主要な仮定を実証的に検証し、セマンティックな関連データポイントがわずかに共有された概念によって説明されることを示す。
最後に,画像および言語タスクのスケールスタディを行い,モデルの実用的意味を検証し,特殊化が最も効果的である状況を特定する。
関連論文リスト
- Test-Time Training Provably Improves Transformers as In-context Learners [49.09821664572445]
テキスト内学習のための勾配に基づくTTTアルゴリズムについて検討する。
テストプロンプトで提供されるコンテキスト内デモに対して,トランスフォーマーモデルをトレーニングする。
経験的貢献として,TabPFNに対するTTTの有用性について検討した。
論文 参考訳(メタデータ) (2025-03-14T20:06:37Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - TEA: Test-time Energy Adaptation [67.4574269851666]
テスト時間適応(TTA)は、テストデータがトレーニング分布から分岐する際のモデル一般化性を改善することを目的としている。
本稿では,対象データ分布に対するモデルによる認識を高めるための,新しいエネルギーベース視点を提案する。
論文 参考訳(メタデータ) (2023-11-24T10:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。