論文の概要: PVT v2: Improved Baselines with Pyramid Vision Transformer
- arxiv url: http://arxiv.org/abs/2106.13797v7
- Date: Mon, 17 Apr 2023 12:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 01:22:04.051445
- Title: PVT v2: Improved Baselines with Pyramid Vision Transformer
- Title(参考訳): PVT v2: ピラミッドビジョン変換器によるベースラインの改善
- Authors: Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding
Liang, Tong Lu, Ping Luo, Ling Shao
- Abstract要約: 原型ピラミドビジョントランス(PVT v1)の改良
PVT v2は、PVT v1の計算複雑性を線形に減少させる。
分類、検出、セグメンテーションといった基本的なビジョンタスクにおいて、大幅な改善が達成されている。
- 参考スコア(独自算出の注目度): 112.0139637538858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer recently has presented encouraging progress in computer vision.
In this work, we present new baselines by improving the original Pyramid Vision
Transformer (PVT v1) by adding three designs, including (1) linear complexity
attention layer, (2) overlapping patch embedding, and (3) convolutional
feed-forward network. With these modifications, PVT v2 reduces the
computational complexity of PVT v1 to linear and achieves significant
improvements on fundamental vision tasks such as classification, detection, and
segmentation. Notably, the proposed PVT v2 achieves comparable or better
performances than recent works such as Swin Transformer. We hope this work will
facilitate state-of-the-art Transformer researches in computer vision. Code is
available at https://github.com/whai362/PVT.
- Abstract(参考訳): Transformerは最近、コンピュータビジョンの進歩を奨励している。
本研究では,(1)線形複雑度注意層,(2)重なり合うパッチ埋め込み,(3)畳み込みフィードフォワードネットワークなどの3つの設計を付加することにより,元のピラミドビジョン変換器(PVT v1)の改良による新しいベースラインを提案する。
これらの修正により、PVT v2はPVT v1の計算複雑性を線形に減らし、分類、検出、セグメンテーションといった基本的なビジョンタスクを大幅に改善する。
特に、提案されたPVT v2は、Swin Transformerのような最近の作品と同等または優れたパフォーマンスを実現している。
この研究がコンピュータビジョンにおける最先端のTransformerの研究を促進することを願っている。
コードはhttps://github.com/whai362/pvtで入手できる。
関連論文リスト
- Retina Vision Transformer (RetinaViT): Introducing Scaled Patches into Vision Transformers [0.0]
このモデルをRetina Vision Transformer (RetinaViT) と呼ぶのは、人間の視覚系からのインスピレーションによるものである。
実験の結果,ImageNet-1Kデータセットを適度な構成でトレーニングすると,RetinaViTは元のViTよりも3.3%パフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2024-03-20T15:35:36Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-25T17:59:40Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。