論文の概要: SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2311.15537v1
- Date: Mon, 27 Nov 2023 05:00:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 17:19:45.655522
- Title: SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation
- Title(参考訳): SED:Open-Vocabulary Semantic Segmentationのための簡易エンコーダデコーダ
- Authors: Bin Xie, Jiale Cao, Jin Xie, Fahad Shahbaz Khan, Yanwei Pang
- Abstract要約: オープンボキャブラリセマンティックセグメンテーションは、ピクセルをオープンなカテゴリの集合から異なるセマンティックグループに区別する試みである。
オープン語彙セマンティックセグメンテーションのための単純なエンコーダデコーダSEDを提案する。
SED法では、ADE20KではmIoUスコアが31.6%、A6000では画像あたり82ミリ秒(ms$)のカテゴリが150である。
- 参考スコア(独自算出の注目度): 91.91385816767057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary semantic segmentation strives to distinguish pixels into
different semantic groups from an open set of categories. Most existing methods
explore utilizing pre-trained vision-language models, in which the key is to
adopt the image-level model for pixel-level segmentation task. In this paper,
we propose a simple encoder-decoder, named SED, for open-vocabulary semantic
segmentation, which comprises a hierarchical encoder-based cost map generation
and a gradual fusion decoder with category early rejection. The hierarchical
encoder-based cost map generation employs hierarchical backbone, instead of
plain transformer, to predict pixel-level image-text cost map. Compared to
plain transformer, hierarchical backbone better captures local spatial
information and has linear computational complexity with respect to input size.
Our gradual fusion decoder employs a top-down structure to combine cost map and
the feature maps of different backbone levels for segmentation. To accelerate
inference speed, we introduce a category early rejection scheme in the decoder
that rejects many no-existing categories at the early layer of decoder,
resulting in at most 4.7 times acceleration without accuracy degradation.
Experiments are performed on multiple open-vocabulary semantic segmentation
datasets, which demonstrates the efficacy of our SED method. When using
ConvNeXt-B, our SED method achieves mIoU score of 31.6\% on ADE20K with 150
categories at 82 millisecond ($ms$) per image on a single A6000. We will
release it at \url{https://github.com/xb534/SED.git}.
- Abstract(参考訳): 開語彙のセマンティックセグメンテーションは、画素を開圏の集合から異なるセマンティックグループに区別しようとする。
既存の手法の多くは、ピクセルレベルのセグメンテーションタスクに画像レベルモデルを採用することが鍵となる、事前学習された視覚言語モデルの利用を探求している。
本稿では,階層的エンコーダに基づくコストマップ生成とカテゴリ早期拒絶を伴う段階的融合デコーダからなる,オープンボキャブラリー意味セグメンテーションのための簡易エンコーダ・デコーダsedを提案する。
階層エンコーダベースのコストマップ生成では、ピクセルレベルの画像テキストコストマップを予測するために、プレーントランスフォーマーの代わりに階層バックボーンを使用する。
平易なトランスに比べて、階層的なバックボーンは局所的な空間情報をよりよくキャプチャし、入力サイズに関して線形計算の複雑さを持つ。
我々の段階的な融合デコーダは、コストマップと、セグメンテーションのための異なるバックボーンレベルの特徴マップを組み合わせるためにトップダウン構造を用いる。
予測速度を高速化するために,デコーダの初期層に存在しない多くのカテゴリを拒絶し,最大4.7倍の高速化を実現するデコーダのカテゴリ早期拒絶方式を導入する。
sed法の有効性を示す複数のopen-vocabulary semantic segmentation dataset上で実験を行った。
convnext-bを使用する場合、sed は ade20k 上で 31.6\% の miou スコアを達成し、単一の a6000 上の画像当たり 82ミリ秒 (ms$) のカテゴリで 150 のカテゴリを成す。
私たちはそれを \url{https://github.com/xb534/SED.git} でリリースします。
関連論文リスト
- CorrMatch: Label Propagation via Correlation Matching for
Semi-Supervised Semantic Segmentation [73.89509052503222]
本稿では、CorrMatchと呼ばれる、単純だが実行可能な半教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
相関写像は、同一カテゴリのクラスタリングピクセルを容易に実現できるだけでなく、良好な形状情報も含んでいることを観察する。
我々は,高信頼画素を拡大し,さらに掘り出すために,画素の対の類似性をモデル化して画素伝搬を行う。
そして、相関地図から抽出した正確なクラス非依存マスクを用いて、領域伝搬を行い、擬似ラベルを強化する。
論文 参考訳(メタデータ) (2023-06-07T10:02:29Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Clustering as Attention: Unified Image Segmentation with Hierarchical
Clustering [11.696069523681178]
本稿では、HCFormerと呼ばれる深層ニューラルネットワークのための階層的クラスタリングに基づく画像分割手法を提案する。
画像のセグメンテーションは、セマンティック、インスタンス、パノプティックセグメンテーションを含む、ピクセルクラスタリングの問題として解釈し、ディープニューラルネットワークを用いたボトムアップ階層クラスタリングによって達成する。
論文 参考訳(メタデータ) (2022-05-20T03:53:56Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Evidential fully convolutional network for semantic segmentation [6.230751621285322]
本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。
提案手法は,多クラス集合に混乱する画素を割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善することを示す。
論文 参考訳(メタデータ) (2021-03-25T01:21:22Z) - A Novel Upsampling and Context Convolution for Image Semantic
Segmentation [0.966840768820136]
最近のセマンティックセグメンテーションの方法は、しばしば深い畳み込みニューラルネットワークを用いたエンコーダデコーダ構造を採用している。
ネットワーク内の画像の空間情報を効率的に保存するために,ガイドフィルタに基づく高密度アップサンプリング畳み込み法を提案する。
ADE20KとPascal-Contextのベンチマークデータセットでは,それぞれ82.86%,81.62%の画素精度を記録した。
論文 参考訳(メタデータ) (2021-03-20T06:16:42Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。