論文の概要: PVTv2: Improved Baselines with Pyramid Vision Transformer
- arxiv url: http://arxiv.org/abs/2106.13797v2
- Date: Mon, 28 Jun 2021 15:07:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 11:44:10.600974
- Title: PVTv2: Improved Baselines with Pyramid Vision Transformer
- Title(参考訳): PVTv2:ピラミッドビジョントランスによるベースライン改善
- Authors: Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding
Liang, Tong Lu, Ping Luo, Ling Shao
- Abstract要約: PVTv2は、分類、検出、セグメンテーションにおいてPVTv1を大幅に改善する。
この研究によって、最先端のビジョントランスフォーマーの研究がよりアクセスしやすくなることを願っている。
- 参考スコア(独自算出の注目度): 103.03973037619532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer in computer vision has recently shown encouraging progress. In
this work, we improve the original Pyramid Vision Transformer (PVTv1) by adding
three improvement designs, which include (1) overlapping patch embedding, (2)
convolutional feed-forward networks, and (3) linear complexity attention
layers.
With these simple modifications, our PVTv2 significantly improves PVTv1 on
classification, detection, and segmentation. Moreover, PVTv2 achieves better
performance than recent works, including Swin Transformer. We hope this work
will make state-of-the-art vision Transformer research more accessible. Code is
available at https://github.com/whai362/PVT .
- Abstract(参考訳): コンピュータビジョンのトランスフォーマーは、最近進歩している。
本研究では,(1)重なり合うパッチ埋め込み,(2)畳み込みフィードフォワードネットワーク,(3)線形複雑性注意層を含む3つの改良設計を加えることにより,元のピラミドビジョン変換器(PVTv1)を改善した。
これらの簡単な修正により、PVTv2は分類、検出、セグメンテーションにおいてPVTv1を大幅に改善する。
さらにPVTv2は、Swin Transformerを含む最近の作業よりも優れたパフォーマンスを実現している。
この研究により、最先端の視覚トランスフォーマー研究がよりアクセス可能になることを願っている。
コードはhttps://github.com/whai362/PVTで入手できる。
関連論文リスト
- Retina Vision Transformer (RetinaViT): Introducing Scaled Patches into Vision Transformers [0.0]
このモデルをRetina Vision Transformer (RetinaViT) と呼ぶのは、人間の視覚系からのインスピレーションによるものである。
実験の結果,ImageNet-1Kデータセットを適度な構成でトレーニングすると,RetinaViTは元のViTよりも3.3%パフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2024-03-20T15:35:36Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Making Vision Transformers Truly Shift-Equivariant [20.61570323513044]
ビジョントランスフォーマー (ViT) は、コンピュータビジョンのためのディープネットアーキテクチャの1つとなっている。
トークン化,自己アテンション,パッチマージ,位置エンコーディングなど,各モジュールに対する新しいデータ適応設計を導入する。
画像分類とセマンティックセグメンテーションタスクにおける適応モデルの評価を行った。
論文 参考訳(メタデータ) (2023-05-25T17:59:40Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。