論文の概要: Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers
- arxiv url: http://arxiv.org/abs/2310.12755v1
- Date: Thu, 19 Oct 2023 14:01:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 15:06:11.438433
- Title: Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers
- Title(参考訳): プレーンビジョントランスフォーマーを用いたミニマリストおよび高性能セマンティクスセグメンテーション
- Authors: Yuanduo Hong, Jue Wang, Weichao Sun, and Huihui Pan
- Abstract要約: トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
- 参考スコア(独自算出の注目度): 10.72362704573323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the wake of Masked Image Modeling (MIM), a diverse range of plain,
non-hierarchical Vision Transformer (ViT) models have been pre-trained with
extensive datasets, offering new paradigms and significant potential for
semantic segmentation. Current state-of-the-art systems incorporate numerous
inductive biases and employ cumbersome decoders. Building upon the original
motivations of plain ViTs, which are simplicity and generality, we explore
high-performance `minimalist' systems to this end. Our primary purpose is to
provide simple and efficient baselines for practical semantic segmentation with
plain ViTs. Specifically, we first explore the feasibility and methodology for
achieving high-performance semantic segmentation using the last feature map. As
a result, we introduce the PlainSeg, a model comprising only three 3$\times$3
convolutions in addition to the transformer layers (either encoder or decoder).
In this process, we offer insights into two underlying principles: (i)
high-resolution features are crucial to high performance in spite of employing
simple up-sampling techniques and (ii) the slim transformer decoder requires a
much larger learning rate than the wide transformer decoder. On this basis, we
further present the PlainSeg-Hier, which allows for the utilization of
hierarchical features. Extensive experiments on four popular benchmarks
demonstrate the high performance and efficiency of our methods. They can also
serve as powerful tools for assessing the transfer ability of base models in
semantic segmentation. Code is available at
\url{https://github.com/ydhongHIT/PlainSeg}.
- Abstract(参考訳): Masked Image Modeling (MIM)の後、多種多様な非階層型ビジョントランスフォーマー(ViT)モデルが広範なデータセットで事前訓練され、新しいパラダイムとセマンティックセグメンテーションの有意義な可能性を提供している。
現在の最先端システムには、多くの誘導バイアスが組み込まれ、面倒なデコーダが採用されている。
単純で汎用的な平易なViTの元々のモチベーションに基づいて、我々はこの目的に向けて高性能な「ミニマリスト」システムを探究する。
我々の主な目的は、平易なViTを用いた実用的なセマンティックセグメンテーションのためのシンプルで効率的なベースラインを提供することである。
具体的には、まず、最後の特徴マップを用いて、高性能なセマンティクスセグメンテーションを実現するための実現可能性と方法論を探求する。
その結果、トランスフォーマー層(エンコーダまたはデコーダ)に加えて、3つの3$\times$3の畳み込みのみからなるモデルであるplainsegを導入する。
このプロセスでは、基礎となる2つの原則について洞察を与えます。
(i)単純なアップサンプリング技術を採用しながら、ハイレゾな特徴はハイパフォーマンスに不可欠である
(ii)スリムトランスデコーダはワイドトランスデコーダよりもはるかに大きな学習速度を必要とする。
そこで本研究では,階層的特徴の活用を可能にするplainseg-hierを提案する。
4つの人気のあるベンチマークに関する広範囲な実験が、我々の手法の高性能と効率を示している。
セマンティクスセグメンテーションにおけるベースモデルの転送能力を評価するための強力なツールとしても機能する。
コードは \url{https://github.com/ydhonghit/plainseg} で入手できる。
関連論文リスト
- Applying ViT in Generalized Few-shot Semantic Segmentation [0.0]
本稿では,汎用的な小ショットセマンティックセマンティックセグメンテーション(GFSS)フレームワーク下でのViTモデルの性能について検討する。
ResNetsやViT(Pretrained Vision Transformer)ベースのモデルなど,バックボーンモデルのさまざまな組み合わせによる実験を行った。
GFSSタスク上での大規模な事前学習型ViTモデルの可能性を示すとともに,テストベンチマークのさらなる改善を期待する。
論文 参考訳(メタデータ) (2024-08-27T11:04:53Z) - GiT: Towards Generalist Vision Transformer through Universal Language Interface [94.33443158125186]
本稿では,バニラ ViT のみを用いて,様々な視覚タスクに同時に適用可能な,シンプルかつ効果的な GiT フレームワークを提案する。
GiTはマルチタスクのビジュアルモデルで、タスク固有の微調整なしで5つの代表的なベンチマークで共同でトレーニングされている。
論文 参考訳(メタデータ) (2024-03-14T13:47:41Z) - Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [81.1943823985213]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation [49.65221743520028]
本研究は, 背骨と頭部が非階層的であり, 単一スケールの機能で動作するSimPLRを, スケール認識型トランスフォーマーベース検出器により検出できることを示す。
マルチスケールおよびシングルスケールの最先端と比較して、我々のモデルはより大きなキャパシティ(自己監督型)モデルとより事前学習データにより、はるかに良くスケールする。
論文 参考訳(メタデータ) (2023-10-09T17:59:26Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - WegFormer: Transformers for Weakly Supervised Semantic Segmentation [32.3201557200616]
この作業では、Transformerを導入し、WegFormerと呼ばれるシンプルで効果的なWSSSフレームワークを構築します。
既存のCNNベースの方法とは異なり、WegFormerはVision Transformerを分類器として使用し、高品質な擬似セグメンテーションマスクを生成する。
WegFormerはPASCAL VOCデータセット上で最先端の70.5% mIoUを達成し、以前のベストメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2022-03-16T06:50:31Z) - A Simple Single-Scale Vision Transformer for Object Localization and
Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。
UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-12-17T20:11:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。