論文の概要: Segmenter: Transformer for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2105.05633v1
- Date: Wed, 12 May 2021 13:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 19:04:06.526909
- Title: Segmenter: Transformer for Semantic Segmentation
- Title(参考訳): segmenter: 意味セグメンテーションのためのトランスフォーマー
- Authors: Robin Strudel, Ricardo Garcia, Ivan Laptev, Cordelia Schmid
- Abstract要約: セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
- 参考スコア(独自算出の注目度): 79.9887988699159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image segmentation is often ambiguous at the level of individual image
patches and requires contextual information to reach label consensus. In this
paper we introduce Segmenter, a transformer model for semantic segmentation. In
contrast to convolution based approaches, our approach allows to model global
context already at the first layer and throughout the network. We build on the
recent Vision Transformer (ViT) and extend it to semantic segmentation. To do
so, we rely on the output embeddings corresponding to image patches and obtain
class labels from these embeddings with a point-wise linear decoder or a mask
transformer decoder. We leverage models pre-trained for image classification
and show that we can fine-tune them on moderate sized datasets available for
semantic segmentation. The linear decoder allows to obtain excellent results
already, but the performance can be further improved by a mask transformer
generating class masks. We conduct an extensive ablation study to show the
impact of the different parameters, in particular the performance is better for
large models and small patch sizes. Segmenter attains excellent results for
semantic segmentation. It outperforms the state of the art on the challenging
ADE20K dataset and performs on-par on Pascal Context and Cityscapes.
- Abstract(参考訳): 画像分割はしばしば個々の画像パッチのレベルで曖昧であり、ラベルのコンセンサスに達するために文脈情報を必要とする。
本稿ではセマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介する。
畳み込みに基づくアプローチとは対照的に,私たちのアプローチでは,第1層とネットワーク全体において,すでにグローバルなコンテキストをモデル化することが可能です。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
そのため、画像パッチに対応する出力埋め込みに頼り、これらの埋め込みから、ポイントワイド線形デコーダやマスクトランスフォーマーデコーダを用いたクラスラベルを得る。
画像分類のために事前訓練されたモデルを活用し、セマンティックセグメンテーションのために利用可能な中規模のデータセットでそれらを微調整できることを示す。
線形デコーダは、既に優れた結果が得られるが、クラスマスクを生成するマスクトランスフォーマによってさらに性能が向上する。
異なるパラメータが与える影響,特に大きなモデルや小さなパッチサイズでの性能が向上することを示すため,広範囲なアブレーション研究を行った。
Segmenterはセマンティックセグメンテーションの優れた結果を得る。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
関連論文リスト
- A Lightweight Clustering Framework for Unsupervised Semantic
Segmentation [28.907274978550493]
教師なしセマンティックセグメンテーションは、注釈付きデータを用いることなく、画像の各ピクセルを対応するクラスに分類することを目的としている。
教師なしセマンティックセグメンテーションのための軽量クラスタリングフレームワークを提案する。
本フレームワークは,PASCAL VOCおよびMS COCOデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:33:42Z) - Learning Semantic Segmentation with Query Points Supervision on Aerial Images [57.09251327650334]
セマンティックセグメンテーションアルゴリズムを学習するための弱教師付き学習アルゴリズムを提案する。
提案手法は正確なセマンティックセグメンテーションを行い,手作業のアノテーションに要するコストと時間を大幅に削減することで効率を向上する。
論文 参考訳(メタデータ) (2023-09-11T14:32:04Z) - Synthetic Instance Segmentation from Semantic Image Segmentation Masks [15.477053085267404]
我々は、Synthetic Instance(SISeg)と呼ばれる新しいパラダイムを提案する。
SISegインスタンスセグメンテーションの結果は、既存のセマンティックセグメンテーションモデルによって生成されたイメージマスクを活用する。
言い換えれば、提案モデルは余分な人力や高い計算コストを必要としない。
論文 参考訳(メタデータ) (2023-08-02T05:13:02Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Scaling up Multi-domain Semantic Segmentation with Sentence Embeddings [81.09026586111811]
ゼロショット設定に適用した場合、最先端の教師付き性能を実現するセマンティックセマンティックセマンティクスへのアプローチを提案する。
これは各クラスラベルを、クラスを記述する短い段落のベクトル値の埋め込みに置き換えることによって達成される。
結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2022-02-04T07:19:09Z) - SeMask: Semantically Masked Transformers for Semantic Segmentation [10.15763397352378]
SeMaskは、セマンティックアテンション操作の助けを借りて、セマンティック情報をエンコーダに組み込むフレームワークである。
我々のフレームワークはADE20Kデータセットで58.22% mIoUの新たな最先端を実現し、CityscapesデータセットではmIoUメトリックで3%以上の改善を実現している。
論文 参考訳(メタデータ) (2021-12-23T18:56:02Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。