論文の概要: Pyramid Fusion Transformer for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2201.04019v1
- Date: Tue, 11 Jan 2022 16:09:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-12 13:25:10.830498
- Title: Pyramid Fusion Transformer for Semantic Segmentation
- Title(参考訳): セマンティクスセグメンテーションのためのピラミッド融合トランスフォーマ
- Authors: Zipeng Qin, Jianbo Liu, Xiaolin Zhang, Maoqing Tian, Aojun Zhou, Shuai
Yi, Hongsheng Li
- Abstract要約: マルチスケール機能の上に,マルチマスクアプローチセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
MaskFormerと比較して,ResNet-101cによるCOCO-Stuff 10Kデータセットの3.2mIoU改善を実現した。
- 参考スコア(独自算出の注目度): 44.57867861592341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recently proposed MaskFormer \cite{maskformer} gives a refreshed
perspective on the task of semantic segmentation: it shifts from the popular
pixel-level classification paradigm to a mask-level classification method. In
essence, it generates paired probabilities and masks corresponding to category
segments and combines them during inference for the segmentation maps. The
segmentation quality thus relies on how well the queries can capture the
semantic information for categories and their spatial locations within the
images. In our study, we find that per-mask classification decoder on top of a
single-scale feature is not effective enough to extract reliable probability or
mask. To mine for rich semantic information across the feature pyramid, we
propose a transformer-based Pyramid Fusion Transformer (PFT) for per-mask
approach semantic segmentation on top of multi-scale features. To efficiently
utilize image features of different resolutions without incurring too much
computational overheads, PFT uses a multi-scale transformer decoder with
cross-scale inter-query attention to exchange complimentary information.
Extensive experimental evaluations and ablations demonstrate the efficacy of
our framework. In particular, we achieve a 3.2 mIoU improvement on COCO-Stuff
10K dataset with ResNet-101c compared to MaskFormer. Besides, on ADE20K
validation set, our result with Swin-B backbone matches that of MaskFormer's
with a much larger Swin-L backbone in both single-scale and multi-scale
inference, achieving 54.1 mIoU and 55.3 mIoU respectively. Using a Swin-L
backbone, we achieve 56.0 mIoU single-scale result on the ADE20K validation set
and 57.2 multi-scale result, obtaining state-of-the-art performance on the
dataset.
- Abstract(参考訳): 最近提案されたMaskFormer \cite{maskformer}は、セマンティックセグメンテーションのタスクについて、新たな視点を与えている。
本質的には、カテゴリセグメントに対応するペア確率とマスクを生成し、セグメンテーションマップの推論中にそれらを組み合わせます。
したがって、セグメンテーションの品質は、クエリが画像内のカテゴリとその空間的位置に関するセマンティック情報をいかにうまくキャプチャできるかに依存する。
本研究では,シングルスケール機能上のマスク分類デコーダは,信頼性の高い確率やマスクを抽出できるほど有効ではないことを見出した。
特徴ピラミッド全体にわたって豊富な意味情報を求めるため,マルチスケール機能上にマスク毎のセマンティクスセグメンテーションを実現するトランスフォーマティブベースのピラミッド融合トランスフォーマを提案する。
計算オーバーヘッドを過大に発生させることなく、異なる解像度の画像特徴を効率的に活用するために、PFTは、マルチスケールのマルチスケールトランスフォーマーデコーダを用いて補完情報を交換する。
広範な実験評価とアブレーションを行い,その効果を実証した。
特に、MaskFormerと比較して、ResNet-101cでCOCO-Stuff 10Kデータセットを3.2mIoU改善しました。
さらに、ADE20K検証セットでは、Swin-BのバックボーンとMaskFormerのバックボーンと、シングルスケールとマルチスケールの両方でずっと大きなSwin-Lのバックボーンが一致し、それぞれ54.1 mIoUと55.3 mIoUを達成した。
Swin-Lのバックボーンを用いてADE20K検証セット上で56.0 mIoUのシングルスケール結果と57.2のマルチスケール結果を得る。
関連論文リスト
- Pyramid Hierarchical Transformer for Hyperspectral Image Classification [1.9427851979929982]
ピラミッド型階層変換器(PyFormer)を提案する。
この革新的なアプローチは、入力データを階層的にセグメントにまとめ、それぞれが異なる抽象レベルを表す。
その結果,従来の手法よりも提案手法の方が優れていることが示された。
論文 参考訳(メタデータ) (2024-04-23T11:41:19Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - MaskRange: A Mask-classification Model for Range-view based LiDAR
Segmentation [34.04740351544143]
本研究では,範囲ビューに基づくLiDARセマンティクスとパノプティックセグメンテーションのためのマスク分類モデルMaskRangeを提案する。
我々のMaskRangeは、セマンティックセグメンテーションにおける6.10ドルmIoUの最先端性能と、高い効率でパノプティクスセグメンテーションにおける53.10ドルPQの有望な結果を達成する。
論文 参考訳(メタデータ) (2022-06-24T04:39:49Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Regularized Densely-connected Pyramid Network for Salient Instance
Segmentation [73.17802158095813]
我々は、エンドツーエンドの有能なインスタンスセグメンテーション(SIS)のための新しいパイプラインを提案する。
ディープネットワークにおけるリッチな特徴階層をよりよく活用するために、正規化された高密度接続を提案する。
マスク予測を改善するために,新しいマルチレベルRoIAlignベースのデコーダを導入し,多レベル特徴を適応的に集約する。
論文 参考訳(メタデータ) (2020-08-28T00:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。