論文の概要: ViT$^3$: Unlocking Test-Time Training in Vision
- arxiv url: http://arxiv.org/abs/2512.01643v1
- Date: Mon, 01 Dec 2025 13:14:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.857912
- Title: ViT$^3$: Unlocking Test-Time Training in Vision
- Title(参考訳): ViT$^3$:視覚におけるテストタイムトレーニングのアンロック
- Authors: Dongchen Han, Yining Li, Tianyu Li, Zixuan Cao, Ziming Wang, Jun Song, Yu Cheng, Bo Zheng, Gao Huang,
- Abstract要約: テストタイムトレーニング(TTT)は、効率的なシーケンスモデリングのための有望な方向として登場した。
本稿では,視覚的シーケンスモデリングのためのTTT設計の体系的研究について述べる。
我々は、線形複雑性と並列化計算を実現する純粋なTTTアーキテクチャであるビジョンテストタイムトレーニング(ViT$3$)モデルで結論付ける。
- 参考スコア(独自算出の注目度): 56.74014676094694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-Time Training (TTT) has recently emerged as a promising direction for efficient sequence modeling. TTT reformulates attention operation as an online learning problem, constructing a compact inner model from key-value pairs at test time. This reformulation opens a rich and flexible design space while achieving linear computational complexity. However, crafting a powerful visual TTT design remains challenging: fundamental choices for the inner module and inner training lack comprehensive understanding and practical guidelines. To bridge this critical gap, in this paper, we present a systematic empirical study of TTT designs for visual sequence modeling. From a series of experiments and analyses, we distill six practical insights that establish design principles for effective visual TTT and illuminate paths for future improvement. These findings culminate in the Vision Test-Time Training (ViT$^3$) model, a pure TTT architecture that achieves linear complexity and parallelizable computation. We evaluate ViT$^3$ across diverse visual tasks, including image classification, image generation, object detection, and semantic segmentation. Results show that ViT$^3$ consistently matches or outperforms advanced linear-complexity models (e.g., Mamba and linear attention variants) and effectively narrows the gap to highly optimized vision Transformers. We hope this study and the ViT$^3$ baseline can facilitate future work on visual TTT models. Code is available at https://github.com/LeapLabTHU/ViTTT.
- Abstract(参考訳): テストタイムトレーニング(TTT)は、最近、効率的なシーケンスモデリングのための有望な方向として登場した。
TTTは、テスト時にキーと値のペアからコンパクトな内部モデルを構築することで、注意操作をオンライン学習問題として再構成する。
この再構成は、線形計算複雑性を達成しつつ、リッチで柔軟な設計空間を開放する。
インナーモジュールとインナートレーニングの基本的な選択は、包括的な理解と実践的なガイドラインを欠いている。
本稿では,この重要なギャップを埋めるために,視覚的シーケンスモデリングのためのTTT設計の系統的研究を行う。
一連の実験と分析から,効果的な視覚的TTTの設計原則を確立するための6つの実践的知見を抽出し,今後の改善に向けての道筋を明らかにする。
これらの結果は、線形複雑性と並列化計算を実現する純粋なTTTアーキテクチャであるViT$^3$(ViT$^3$)モデルで決定される。
画像分類,画像生成,オブジェクト検出,セマンティックセグメンテーションなど,様々な視覚的タスクを対象としたViT$^3$の評価を行った。
その結果、ViT$^3$は、高度線形複雑度モデル(例えば、Mambaや線形注意変動)と一貫して一致し、高度に最適化された視覚変換器へのギャップを効果的に狭めることを示した。
この研究とViT$^3$ベースラインが将来のビジュアルTTモデルの開発を促進することを願っている。
コードはhttps://github.com/LeapLabTHU/ViTTTで入手できる。
関連論文リスト
- CTA: Cross-Task Alignment for Better Test Time Training [10.54024648915477]
テストタイムトレーニング(TTT)は、モデルロバスト性を高める効果的な方法として登場した。
CTA(Cross-Task Alignment)は,TTTを改善するための新しいアプローチである。
いくつかのベンチマークデータセット上で、最先端技術よりもロバスト性や一般化が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2025-07-07T17:33:20Z) - Octic Vision Transformers: Quicker ViTs Through Equivariance [29.044546222577804]
我々は幾何学的対称性を捉えるためにOctic Vision Transformer (octic ViTs)を導入する。
われわれの八面体線形層はFLOPの5.33倍、メモリの8倍の低減を実現している。
我々は ImageNet-1K 上で octic ViT (DeiT-III) と unsupervised (DINOv2) を訓練する。
論文 参考訳(メタデータ) (2025-05-21T12:22:53Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - Experts Weights Averaging: A New General Training Scheme for Vision
Transformers [57.62386892571636]
推論コストを増大させることなく性能向上を実現するビジョントランスフォーマー(ViT)のトレーニング手法を提案する。
トレーニング中、ViTのFeed-Forward Networks(FFN)を、特別に設計されたより効率的なMoEに置き換える。
トレーニング後、各MoEを専門家を平均化してFFNに変換し、モデルを推論のために元のViTに変換する。
論文 参考訳(メタデータ) (2023-08-11T12:05:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。