論文の概要: ViT-5: Vision Transformers for The Mid-2020s
- arxiv url: http://arxiv.org/abs/2602.08071v1
- Date: Sun, 08 Feb 2026 18:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.968622
- Title: ViT-5: Vision Transformers for The Mid-2020s
- Title(参考訳): ViT-5:2020年代半ばのビジョントランス
- Authors: Feng Wang, Sucheng Ren, Tiezheng Zhang, Predrag Neskovic, Anand Bhattad, Cihang Xie, Alan Yuille,
- Abstract要約: ViT-5は理解と生成のベンチマークで最先端のビジョントランスフォーマーを上回っている。
ViT-5は、生成モデリングの強力なバックボーンとしても機能する。
現代のファウンデーションモデルのプラクティスに合わせた設計で、VT-5は2020年代半ばのビジョンバックボーンのためにバニラVTに簡単なアップグレードを提供する。
- 参考スコア(独自算出の注目度): 37.39109333421985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a systematic investigation into modernizing Vision Transformer backbones by leveraging architectural advancements from the past five years. While preserving the canonical Attention-FFN structure, we conduct a component-wise refinement involving normalization, activation functions, positional encoding, gating mechanisms, and learnable tokens. These updates form a new generation of Vision Transformers, which we call ViT-5. Extensive experiments demonstrate that ViT-5 consistently outperforms state-of-the-art plain Vision Transformers across both understanding and generation benchmarks. On ImageNet-1k classification, ViT-5-Base reaches 84.2\% top-1 accuracy under comparable compute, exceeding DeiT-III-Base at 83.8\%. ViT-5 also serves as a stronger backbone for generative modeling: when plugged into an SiT diffusion framework, it achieves 1.84 FID versus 2.06 with a vanilla ViT backbone. Beyond headline metrics, ViT-5 exhibits improved representation learning and favorable spatial reasoning behavior, and transfers reliably across tasks. With a design aligned with contemporary foundation-model practices, ViT-5 offers a simple drop-in upgrade over vanilla ViT for mid-2020s vision backbones.
- Abstract(参考訳): この研究は、過去5年間のアーキテクチャの進歩を活用して、ビジョントランスフォーマーのバックボーンの近代化に関する体系的な研究を示す。
正規化,アクティベーション関数,位置符号化,ゲーティング機構,学習可能なトークンを含むコンポーネントワイズを行う。
これらのアップデートは、ViT-5と呼ばれる新しい世代のビジョントランスフォーマーを形成する。
大規模な実験により、ViT-5は理解と生成の両方のベンチマークで最先端のプレーンビジョントランスフォーマーを一貫して上回っていることが示された。
ImageNet-1k分類では、ViT-5-Baseは84.2\%で、DeiT-III-Baseを83.8\%で上回っている。
ViT-5はSiT拡散フレームワークにプラグインされると、バニラ ViT のバックボーンで 1.84 FID 対 2.06 を達成する。
見出しの指標の他に、ViT-5は表現学習の改善と良好な空間推論行動を示し、タスク間で確実に転送する。
現代のファウンデーションモデルのプラクティスに合わせた設計で、VT-5は2020年代半ばのビジョンバックボーンのためにバニラVTに簡単なアップグレードを提供する。
関連論文リスト
- ViT-ProtoNet for Few-Shot Image Classification: A Multi-Benchmark Evaluation [4.884338536663712]
本稿では,VT-SmallバックボーンをPrototypeal Networkフレームワークに統合したViT-ProtoNetを紹介する。
この結果から,ViT-ProtoNetを,数発の分類のための強力で柔軟なアプローチとして確立した。
論文 参考訳(メタデータ) (2025-07-12T14:19:04Z) - Vision Transformer Adapter for Dense Predictions [57.590511173416445]
Vision Transformer (ViT) は画像の事前情報がないため、高密度な予測タスクでは性能が劣る。
本稿では、ViTの欠陥を修復し、視覚特化モデルに匹敵する性能を実現するビジョントランスフォーマーアダプタ(ViT-Adapter)を提案する。
我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。
論文 参考訳(メタデータ) (2022-05-17T17:59:11Z) - Improving Vision Transformers by Revisiting High-frequency Components [106.7140968644414]
視覚変換器(ViT)モデルは,CNNモデルよりも画像の高周波成分の捕捉に効果が低いことを示す。
本稿では,画像の高周波成分を直接補うHATを提案する。
HAT は様々な ViT モデルの性能を継続的に向上させることができることを示す。
論文 参考訳(メタデータ) (2022-04-03T05:16:51Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - A Unified Pruning Framework for Vision Transformers [40.7622551128182]
ビジョントランス(ViT)とその変種は様々なコンピュータビジョンタスクにおいて有望な性能を達成した。
本稿では, UP-ViT と UP-ViT の両方の構造解析のための統一的な枠組みを提案する。
本手法は,モデル構造の整合性を維持しつつ,すべてのViTsコンポーネントのプルーニングに重点を置いている。
論文 参考訳(メタデータ) (2021-11-30T05:01:02Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - On the Adversarial Robustness of Visual Transformers [129.29523847765952]
本研究は、視覚変換器(ViT)の対逆的摂動に対する堅牢性に関する最初の包括的な研究を提供する。
さまざまなホワイトボックスとトランスファーアタック設定でテストされた ViT は、畳み込みニューラルネットワーク (CNN) と比較して、より優れた敵対的堅牢性を持っています。
論文 参考訳(メタデータ) (2021-03-29T14:48:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。