論文の概要: PVTv2: Improved Baselines with Pyramid Vision Transformer
- arxiv url: http://arxiv.org/abs/2106.13797v1
- Date: Fri, 25 Jun 2021 17:51:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-28 14:01:29.383798
- Title: PVTv2: Improved Baselines with Pyramid Vision Transformer
- Title(参考訳): PVTv2:ピラミッドビジョントランスによるベースライン改善
- Authors: Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding
Liang, Tong Lu, Ping Luo, Ling Shao
- Abstract要約: PVTv2は、分類、検出、セグメンテーションにおいてPVTv1を大幅に改善する。
PVTv2は、ImageNet-1K事前トレーニングの下で、Swin Transformerを含む最近の作業よりもはるかに優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 103.03973037619532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer in computer vision has recently shown encouraging progress. In
this work, we improve the original Pyramid Vision Transformer (PVTv1) by adding
three improvement designs, which include (1) locally continuous features with
convolutions, (2) position encodings with zero paddings, and (3) linear
complexity attention layers with average pooling. With these simple
modifications, our PVTv2 significantly improves PVTv1 on classification,
detection, and segmentation. Moreover, PVTv2 achieves much better performance
than recent works, including Swin Transformer, under ImageNet-1K pre-training.
We hope this work will make state-of-the-art vision Transformer research more
accessible. Code is available at https://github.com/whai362/PVT .
- Abstract(参考訳): コンピュータビジョンのトランスフォーマーは、最近進歩している。
本研究では,(1)畳み込みを伴う局所連続的な特徴,(2)ゼロパディングによる位置符号化,(3)平均プールを用いた線形複雑注意層を含む3つの改良設計を加えることにより,元のピラミッドビジョン変換器(PVTv1)を改善した。
これらの簡単な修正により、PVTv2は分類、検出、セグメンテーションにおいてPVTv1を大幅に改善する。
さらにPVTv2は、ImageNet-1K事前トレーニングの下で、Swin Transformerを含む最近の作業よりもはるかに優れたパフォーマンスを実現している。
この研究により、最先端の視覚トランスフォーマー研究がよりアクセス可能になることを願っている。
コードはhttps://github.com/whai362/PVTで入手できる。
関連論文リスト
- Compress image to patches for Vision Transformer [0.0]
本稿では、CI2P-ViTというCNNとVision Transformerに基づくハイブリッドモデルを提案する。
このモデルにはCI2Pと呼ばれるモジュールが組み込まれており、CompressAIエンコーダを使って画像を圧縮し、一連の畳み込みを通じてパッチのシーケンスを生成する。
アニマルズ-10データセットの地上訓練で、CI2P-ViTは92.37%の精度を達成し、ViT-B/16ベースラインよりも3.3%改善した。
論文 参考訳(メタデータ) (2025-02-14T12:40:37Z) - Retina Vision Transformer (RetinaViT): Introducing Scaled Patches into Vision Transformers [0.0]
このモデルをRetina Vision Transformer (RetinaViT) と呼ぶのは、人間の視覚系からのインスピレーションによるものである。
実験の結果,ImageNet-1Kデータセットを適度な構成でトレーニングすると,RetinaViTは元のViTよりも3.3%パフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2024-03-20T15:35:36Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - ConvNets vs. Transformers: Whose Visual Representations are More
Transferable? [49.62201738334348]
本研究では,15個のシングルタスクおよびマルチタスク性能評価において,ConvNetと視覚変換器の伝達学習能力について検討する。
13の下流タスクでTransformerベースのバックボーンの一貫性のあるアドバンテージを観察した。
論文 参考訳(メタデータ) (2021-08-11T16:20:38Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z) - Rethinking the Design Principles of Robust Vision Transformer [28.538786330184642]
視覚トランスフォーマー (vit) は、従来の畳み込みニューラルネットワーク (cnns) をほとんどの視覚タスクで上回っていることを示した。
本稿では, ViTs の設計原理を堅牢性に基づいて再考する。
堅牢な設計部品を組み合わせることで、ロバストビジョントランス(RVT)を提案します。
論文 参考訳(メタデータ) (2021-05-17T15:04:15Z) - CvT: Introducing Convolutions to Vision Transformers [44.74550305869089]
畳み込み視覚変換器(CvT)は、視覚変換器(ViT)の性能と効率を向上する。
新しいアーキテクチャはViTに畳み込み、両方の設計で最高のものを生み出す。
論文 参考訳(メタデータ) (2021-03-29T17:58:22Z) - Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction
without Convolutions [103.03973037619532]
この研究は、畳み込みのない多くの密な予測タスクに有用な単純なバックボーンネットワークを調査します。
画像分類用に特別に設計された最近提案されたトランスフォーマーモデル(例: ViT)とは異なり、Pyramid Vision Transformer(PVT)を提案する。
PVTは、高出力の解像度を達成するために画像の高密度分割をトレーニングするだけでなく、高密度の予測に重要である。
論文 参考訳(メタデータ) (2021-02-24T08:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。