論文の概要: ViTAR: Vision Transformer with Any Resolution
- arxiv url: http://arxiv.org/abs/2403.18361v2
- Date: Thu, 28 Mar 2024 14:59:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 10:49:40.363600
- Title: ViTAR: Vision Transformer with Any Resolution
- Title(参考訳): ViTAR:どんな解像度でも使えるヴィジュアルトランス
- Authors: Qihang Fan, Quanzeng You, Xiaotian Han, Yongfei Liu, Yunzhe Tao, Huaibo Huang, Ran He, Hongxia Yang,
- Abstract要約: ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
- 参考スコア(独自算出の注目度): 80.95324692984903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper tackles a significant challenge faced by Vision Transformers (ViTs): their constrained scalability across different image resolutions. Typically, ViTs experience a performance decline when processing resolutions different from those seen during training. Our work introduces two key innovations to address this issue. Firstly, we propose a novel module for dynamic resolution adjustment, designed with a single Transformer block, specifically to achieve highly efficient incremental token integration. Secondly, we introduce fuzzy positional encoding in the Vision Transformer to provide consistent positional awareness across multiple resolutions, thereby preventing overfitting to any single training resolution. Our resulting model, ViTAR (Vision Transformer with Any Resolution), demonstrates impressive adaptability, achieving 83.3\% top-1 accuracy at a 1120x1120 resolution and 80.4\% accuracy at a 4032x4032 resolution, all while reducing computational costs. ViTAR also shows strong performance in downstream tasks such as instance and semantic segmentation and can easily combined with self-supervised learning techniques like Masked AutoEncoder. Our work provides a cost-effective solution for enhancing the resolution scalability of ViTs, paving the way for more versatile and efficient high-resolution image processing.
- Abstract(参考訳): 本稿では、視覚変換器(ViT)が直面している重要な課題に対処する。
通常、ViTはトレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
私たちの研究は、この問題に対処する2つの重要なイノベーションを紹介します。
まず,高効率なインクリメンタルトークン統合を実現するために,単一のTransformerブロックで設計した動的解像度調整モジュールを提案する。
第二に、視覚変換器にファジィ位置符号化を導入し、複数の解像度に一貫した位置認識を提供することにより、任意のトレーニング解像度に過度に適合しないようにする。
我々のモデルであるViTAR(Vision Transformer with Any Resolution)は、計算コストを削減しつつ、1120x1120の解像度で83.3\%、4032x4032の解像度で80.4\%の精度で、優れた適応性を示す。
ViTARはまた、インスタンスやセマンティックセグメンテーションといった下流タスクのパフォーマンスも高く、Masked AutoEncoderのような自己教師付き学習技術と簡単に組み合わせることができる。
我々の研究は、ViTの解像度スケーラビリティを向上し、より汎用的で効率的な高解像度画像処理を実現するためのコスト効率の高いソリューションを提供する。
関連論文リスト
- MSPE: Multi-Scale Patch Embedding Prompts Vision Transformers to Any Resolution [31.564277546050484]
本稿では,パッチ埋め込みを最適化することにより,解像度変化に対するモデル適応性を向上させることを提案する。
提案手法はMulti-Scale Patch Embedding (MSPE) と呼ばれ、複数の可変サイズのパッチカーネルに標準パッチを埋め込む。
我々の手法は、他の部品への高コストなトレーニングや修正を必要としないため、ほとんどのViTモデルにも容易に適用できる。
論文 参考訳(メタデータ) (2024-05-28T14:50:12Z) - DehazeDCT: Towards Effective Non-Homogeneous Dehazing via Deformable Convolutional Transformer [43.807338032286346]
DehazeDCT(Deformable Convolutional Transformer-like Architecture)による非均一なデハージング手法を提案する。
まず,変形可能な畳み込みv4に基づく変圧器型ネットワークを設計し,長距離依存性と適応型空間アグリゲーション機能を実現する。
さらに,ライトウェイトなRetinexインスパイアされた変圧器を活用し,色補正と構造改善を実現する。
論文 参考訳(メタデータ) (2024-05-24T10:59:18Z) - HIRI-ViT: Scaling Vision Transformer with High Resolution Inputs [102.4965532024391]
Vision Transformer(ViT)とConvolution Neural Network(CNN)のハイブリッドディープモデルは、ビジョンタスクのための強力なバックボーンのクラスとして登場した。
高分解能入力に適した4段のViTから5段のViTにアップグレードしたHIgh-Resolution Inputs(HIRI-ViT)のハイブリッドバックボーンを提案する。
HiRI-ViTは448$times$448の入力でImageNetで84.3%の最高のTop-1精度を達成し、iFormer-Sの83.4%を224$timesで0.9%改善した。
論文 参考訳(メタデータ) (2024-03-18T17:34:29Z) - ResFormer: Scaling ViTs with Multi-Resolution Training [100.01406895070693]
私たちはResFormerを紹介します。ResFormerは、広く、ほとんど目に見えない、テストの解像度でパフォーマンスを改善するフレームワークです。
特にResFormerは、異なる解像度の再現されたイメージを実行し、さまざまなスケールでインタラクティブな情報をエンゲージするスケール一貫性の損失を強制する。
さらに、ResFormerは柔軟性があり、セマンティックセグメンテーション、オブジェクト検出、ビデオアクション認識に容易に拡張できることを示す。
論文 参考訳(メタデータ) (2022-12-01T18:57:20Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - AdaViT: Adaptive Tokens for Efficient Vision Transformer [91.88404546243113]
本稿では,視覚変換器(ViT)の推論コストを,複雑さの異なる画像に対して適応的に調整する手法であるAdaViTを紹介する。
AdaViTは、推論が進むにつれてネットワーク内で処理されるビジョントランスフォーマーのトークン数を自動で削減することで、これを実現する。
論文 参考訳(メタデータ) (2021-12-14T18:56:07Z) - Swin Transformer V2: Scaling Up Capacity and Resolution [45.462916348268664]
我々はSwin Transformerを最大30億のパラメータにスケーリングし、最大1,536$times$1,536解像度の画像でトレーニングできるようにする。
キャパシティと解像度をスケールアップすることで、Swin Transformerは4つの代表的なビジョンベンチマークに新しいレコードを設定する。
論文 参考訳(メタデータ) (2021-11-18T18:59:33Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。