論文の概要: Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and
Resolution
- arxiv url: http://arxiv.org/abs/2307.06304v1
- Date: Wed, 12 Jul 2023 17:01:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 12:23:34.647153
- Title: Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and
Resolution
- Title(参考訳): patch n' pack:navit、あらゆるアスペクト比と解像度のためのビジョントランスフォーマー
- Authors: Mostafa Dehghani, Basil Mustafa, Josip Djolonga, Jonathan Heek,
Matthias Minderer, Mathilde Caron, Andreas Steiner, Joan Puigcerver, Robert
Geirhos, Ibrahim Alabdulmohsin, Avital Oliver, Piotr Padlewski, Alexey
Gritsenko, Mario Lu\v{c}i\'c, Neil Houlsby
- Abstract要約: Vision Transformer (ViT) モデルはフレキシブルなシーケンスベースのモデリングを提供する。
Native Resolution ViTはトレーニング中にシーケンスパッキングを使用して任意の解像度とアスペクト比の入力を処理する。
NaViTは画像やビデオの分類、オブジェクトの検出、セマンティックセグメンテーションといった標準的なタスクに効率的に転送できる。
- 参考スコア(独自算出の注目度): 34.05028995319689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ubiquitous and demonstrably suboptimal choice of resizing images to a
fixed resolution before processing them with computer vision models has not yet
been successfully challenged. However, models such as the Vision Transformer
(ViT) offer flexible sequence-based modeling, and hence varying input sequence
lengths. We take advantage of this with NaViT (Native Resolution ViT) which
uses sequence packing during training to process inputs of arbitrary
resolutions and aspect ratios. Alongside flexible model usage, we demonstrate
improved training efficiency for large-scale supervised and contrastive
image-text pretraining. NaViT can be efficiently transferred to standard tasks
such as image and video classification, object detection, and semantic
segmentation and leads to improved results on robustness and fairness
benchmarks. At inference time, the input resolution flexibility can be used to
smoothly navigate the test-time cost-performance trade-off. We believe that
NaViT marks a departure from the standard, CNN-designed, input and modelling
pipeline used by most computer vision models, and represents a promising
direction for ViTs.
- Abstract(参考訳): コンピュータビジョンモデルでイメージを処理する前に、画像を固定解像度に再サイズするという、ユビキタスで実証可能な準最適選択は、まだ成功していない。
しかし、ViT(Vision Transformer)のようなモデルはフレキシブルなシーケンスベースモデリングを提供し、したがって入力シーケンスの長さが変化する。
我々は、任意の解像度とアスペクト比の入力を処理するためにトレーニング中にシーケンスパッキングを使用するNaViT(Native Resolution ViT)を利用する。
フレキシブルモデルの使用に加えて、大規模教師付きおよびコントラスト付き画像テキスト事前学習のためのトレーニング効率の向上を示す。
NaViTは画像やビデオの分類、オブジェクトの検出、セマンティックセグメンテーションといった標準的なタスクに効率的に移行することができ、ロバストネスとフェアネスベンチマークの結果を改善することができる。
推論時に、入力解像度の柔軟性を使用して、テストタイムのコストパフォーマンストレードオフをスムーズにナビゲートすることができる。
私たちは、NaViTが、ほとんどのコンピュータビジョンモデルで使われている標準のCNN設計、入出力、モデリングパイプラインから離れ、ViTにとって有望な方向性を示していると信じています。
関連論文リスト
- FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - ViTAR: Vision Transformer with Any Resolution [80.95324692984903]
ビジョントランスフォーマーは、トレーニング中に見られるものと異なる処理解像度で性能低下を経験する。
複数の解像度で一貫した位置認識を提供するために、視覚変換器にファジィ位置符号化を導入する。
我々のモデルであるViTARは、1120x1120の解像度で83.3%、4032x4032の解像度で80.4%の精度で、優れた適応性を示す。
論文 参考訳(メタデータ) (2024-03-27T08:53:13Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Where are my Neighbors? Exploiting Patches Relations in Self-Supervised
Vision Transformer [3.158346511479111]
視覚変換器(ViT)を訓練するための簡易かつ効果的な自己教師付き学習(SSL)戦略を提案する。
我々は、ダウンストリームトレーニングの前後で、モデルが解決しなければならないイメージパッチの関係に基づいてSSLタスクのセットを定義する。
我々のRelViTモデルは、画像パッチに関連するトランスフォーマーエンコーダの出力トークンをすべて最適化し、トレーニングステップ毎により多くのトレーニング信号を利用する。
論文 参考訳(メタデータ) (2022-06-01T13:25:32Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。