論文の概要: Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training
- arxiv url: http://arxiv.org/abs/2603.00518v1
- Date: Sat, 28 Feb 2026 07:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.238304
- Title: Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training
- Title(参考訳): Vision-TTT:テスト時間トレーニングによる効率的かつ表現力のある視覚表現学習
- Authors: Quan Kong, Yanru Xiao, Yuhao Shen, Cong Wang,
- Abstract要約: 本稿では,新しい線形時間系列モデリング手法であるTest-Time Training(TTT)を視覚に導入する。
Vision-TTTは、新しい自己教師付き学習方法で視覚トークンシーケンスを圧縮する。
texttVittt-T/S/B は ImageNet 分類において 77.3%,81.2%,82.5% のTop-1 精度を達成している。
- 参考スコア(独自算出の注目度): 12.926316141126946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning efficient and expressive visual representation has long been the pursuit of computer vision research. While Vision Transformers (ViTs) gradually replace traditional Convolutional Neural Networks (CNNs) as more scalable vision learners, their applications are plagued by the quadratic complexity of the self-attention mechanism. To address the challenge, we introduce a new linear-time sequence modeling method Test-Time Training (TTT) into vision and propose Vision-TTT, which compresses the visual token sequence in a novel self-supervised learning manner. By incorporating bidirectional scan strategy and the Conv2d module, Vision-TTT effectively extends vanilla TTT to model 2D visual correlations with global receptive fields. Extensive experiments show that \texttt{Vittt-T/S/B} achieve 77.3%,81.2%,82.5% Top-1 accuracy on ImageNet classification and also greatly outperform their counterparts on downstream tasks. At 1280x1280 resolution, \texttt{Vittt-T} reduces FLOPs by 79.4% and runs 4.38x faster with 88.9% less memory than DeiT-T. These results demonstrate the expressiveness and efficiency of Vision-TTT as a strong candidate for the next-generation generic visual backbone.
- Abstract(参考訳): 効率的で表現力豊かな視覚表現の学習は、長い間コンピュータビジョン研究の追求であった。
ViT(Vision Transformers)は、よりスケーラブルな視覚学習者として、従来の畳み込みニューラルネットワーク(CNN)を徐々に置き換えるが、その応用は、自己認識機構の二次的な複雑さに悩まされている。
この課題に対処するために,新しい線形時間系列モデリング手法であるTest-Time Training (TTT) を視覚に導入し,新しい自己教師付き学習方式で視覚トークン列を圧縮するVision-TTTを提案する。
双方向スキャン戦略とConv2dモジュールを組み込むことで、Vision-TTTはバニラTTを拡張し、グローバルな受容場と2次元視覚相関をモデル化する。
大規模な実験では、画像ネット分類における77.3%、81.2%、82.5%のTop-1精度が達成され、ダウンストリームタスクではその性能を大きく上回っている。
1280x1280の解像度で、 \texttt{Vittt-T} は FLOP を79.4%削減し、DeiT-T より88.9%少ないメモリで4.38倍高速で動作する。
これらの結果は、次世代の視覚バックボーンの強力な候補として、Vision-TTTの表現性と効率性を示している。
関連論文リスト
- Two-Stage Vision Transformer for Image Restoration: Colorization Pretraining + Residual Upsampling [4.365909537198615]
本稿では,2段階のトレーニング戦略を用いた視覚変換器(ViT)の性能向上手法を提案する。
DIV2Kベンチマークデータセットでトレーニングされ評価されたViT-SRは、0.712のSingle Image Super-Resolution(SISR)と22.90dBのPSNRを達成した。
論文 参考訳(メタデータ) (2025-12-02T08:10:55Z) - ViT$^3$: Unlocking Test-Time Training in Vision [56.74014676094694]
テストタイムトレーニング(TTT)は、効率的なシーケンスモデリングのための有望な方向として登場した。
本稿では,視覚的シーケンスモデリングのためのTTT設計の体系的研究について述べる。
我々は、線形複雑性と並列化計算を実現する純粋なTTTアーキテクチャであるビジョンテストタイムトレーニング(ViT$3$)モデルで結論付ける。
論文 参考訳(メタデータ) (2025-12-01T13:14:48Z) - Octic Vision Transformers: Quicker ViTs Through Equivariance [29.044546222577804]
我々は幾何学的対称性を捉えるためにOctic Vision Transformer (octic ViTs)を導入する。
われわれの八面体線形層はFLOPの5.33倍、メモリの8倍の低減を実現している。
我々は ImageNet-1K 上で octic ViT (DeiT-III) と unsupervised (DINOv2) を訓練する。
論文 参考訳(メタデータ) (2025-05-21T12:22:53Z) - Supervised Fine-tuning in turn Improves Visual Foundation Models [74.1760864718129]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文 参考訳(メタデータ) (2024-01-18T18:58:54Z) - Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model [48.233300343211205]
We propose a new generic vision backbone with bidirectional Mamba block (Vim)。
Vimは画像列を位置埋め込みでマークし、視覚表現を双方向の状態空間モデルで圧縮する。
その結果,高解像度画像に対するTransformerスタイルの理解において,Vimは計算とメモリの制約を克服できることがわかった。
論文 参考訳(メタデータ) (2024-01-17T18:56:18Z) - ViT-Lens: Initiating Omni-Modal Exploration through 3D Insights [61.36309876889977]
ViT-Lensは、事前訓練されたViTで新しいモダリティを知覚し、予め定義された空間に整列することで、効率的なOmni-Modal表現学習を可能にする。
ゼロショット3D分類では、ViT-Lensは従来の最先端技術よりも大幅に改善されている。
近い将来、さらなるモダリティに関するViT-Lensの結果を公表します。
論文 参考訳(メタデータ) (2023-08-20T07:26:51Z) - TRIPS: Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [61.0662744915659]
我々は,textbfText-textbfRelevant textbfImage textbfPatch textbfSelection,すなわちTRIPSを用いた視覚・言語事前学習モデルを提案する。
TRIPSは、効率的なトレーニングと推論のために、視覚バックボーン内のテキスト誘導パッチ選択層によって、視覚的シーケンスを徐々に減少させる。
論文 参考訳(メタデータ) (2023-05-08T05:53:30Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。