論文の概要: Test-Time Training with KV Binding Is Secretly Linear Attention
- arxiv url: http://arxiv.org/abs/2602.21204v1
- Date: Tue, 24 Feb 2026 18:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.896591
- Title: Test-Time Training with KV Binding Is Secretly Linear Attention
- Title(参考訳): KVバインディングによるテストタイムトレーニングは、秘密裏にリニアな注意を払っている
- Authors: Junchen Liu, Sven Elflein, Or Litany, Zan Gojcic, Ruilong Li,
- Abstract要約: KVバインディングをシーケンスモデリング層とするテストタイムトレーニング(TTT)は、オンラインメタ学習の一形態として一般的に解釈される。
学習された線形アテンション演算子の形式として,TTTアーキテクチャの幅広いクラスを表現できることが示される。
- 参考スコア(独自算出の注目度): 30.99606181109631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time training (TTT) with KV binding as sequence modeling layer is commonly interpreted as a form of online meta-learning that memorizes a key-value mapping at test time. However, our analysis reveals multiple phenomena that contradict this memorization-based interpretation. Motivated by these findings, we revisit the formulation of TTT and show that a broad class of TTT architectures can be expressed as a form of learned linear attention operator. Beyond explaining previously puzzling model behaviors, this perspective yields multiple practical benefits: it enables principled architectural simplifications, admits fully parallel formulations that preserve performance while improving efficiency, and provides a systematic reduction of diverse TTT variants to a standard linear attention form. Overall, our results reframe TTT not as test-time memorization, but as learned linear attention with enhanced representational capacity.
- Abstract(参考訳): KVバインディングをシーケンスモデリング層とするテストタイムトレーニング(TTT)は、テスト時にキー値マッピングを記憶するオンラインメタラーニングの一形態として一般的に解釈される。
しかし,本研究では,この暗記に基づく解釈に矛盾する複数の現象が明らかになった。
これらの結果から, TTTの定式化を再考し, 学習線形アテンション演算子の形式として, TTTアーキテクチャの幅広いクラスを表現可能であることを示す。
原則化されたアーキテクチャの単純化を可能にし、効率を改善しながら性能を保ちながら完全に並列な定式化を認め、様々なTTの変種を標準的な線形注意形式に体系的に還元する。
以上の結果から,TTTはテストタイム記憶ではなく,表現能力の向上による線形注意力の向上が示唆された。
関連論文リスト
- ViT$^3$: Unlocking Test-Time Training in Vision [56.74014676094694]
テストタイムトレーニング(TTT)は、効率的なシーケンスモデリングのための有望な方向として登場した。
本稿では,視覚的シーケンスモデリングのためのTTT設計の体系的研究について述べる。
我々は、線形複雑性と並列化計算を実現する純粋なTTTアーキテクチャであるビジョンテストタイムトレーニング(ViT$3$)モデルで結論付ける。
論文 参考訳(メタデータ) (2025-12-01T13:14:48Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Specialization after Generalization: Towards Understanding Test-Time Training in Foundation Models [64.02612380298228]
最近の研究は、テストタイムトレーニング(TTT)として知られる特定のタスクに対して、テストタイムでモデルをトレーニングし続けるというアイデアを探求している。
本稿では,TTTがグローバルトレーニングよりもはるかに小さな分布内テスト誤差を達成できるモデルを提案する。
我々は、ImageNet上でスパースオートエンコーダをトレーニングすることで、モデルの主要な仮定を実証的に検証する。
論文 参考訳(メタデータ) (2025-09-29T09:24:52Z) - CTA: Cross-Task Alignment for Better Test Time Training [10.54024648915477]
テストタイムトレーニング(TTT)は、モデルロバスト性を高める効果的な方法として登場した。
CTA(Cross-Task Alignment)は,TTTを改善するための新しいアプローチである。
いくつかのベンチマークデータセット上で、最先端技術よりもロバスト性や一般化が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-07-07T17:33:20Z) - Test-Time Training Provably Improves Transformers as In-context Learners [49.09821664572445]
テキスト内学習のための勾配に基づくTTTアルゴリズムについて検討する。
テストプロンプトで提供されるコンテキスト内デモに対して,トランスフォーマーモデルをトレーニングする。
経験的貢献として,TabPFNに対するTTTの有用性について検討した。
論文 参考訳(メタデータ) (2025-03-14T20:06:37Z) - Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。
テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。
2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文 参考訳(メタデータ) (2024-04-21T08:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。