論文の概要: Segmenting Transparent Object in the Wild with Transformer
- arxiv url: http://arxiv.org/abs/2101.08461v3
- Date: Tue, 23 Feb 2021 13:23:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 19:14:14.716153
- Title: Segmenting Transparent Object in the Wild with Transformer
- Title(参考訳): 変圧器を用いた野生の透明物体のセグメンテーション
- Authors: Enze Xie, Wenjia Wang, Wenhai Wang, Peize Sun, Hang Xu, Ding Liang,
Ping Luo
- Abstract要約: 本稿では、trans10k-v2と呼ばれる、trans10k-v1を拡張する新しい細粒度透明オブジェクトセグメンテーションデータセットを提案する。
それは人間の国内環境で一般的に起こる透明なオブジェクトの11細かいカテゴリを持っています。
Trans2Segと呼ばれる新しいトランスフォーマーベースのセグメンテーションパイプラインを提案する。
- 参考スコア(独自算出の注目度): 47.97930429998238
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work presents a new fine-grained transparent object segmentation
dataset, termed Trans10K-v2, extending Trans10K-v1, the first large-scale
transparent object segmentation dataset. Unlike Trans10K-v1 that only has two
limited categories, our new dataset has several appealing benefits. (1) It has
11 fine-grained categories of transparent objects, commonly occurring in the
human domestic environment, making it more practical for real-world
application. (2) Trans10K-v2 brings more challenges for the current advanced
segmentation methods than its former version. Furthermore, a novel
transformer-based segmentation pipeline termed Trans2Seg is proposed. Firstly,
the transformer encoder of Trans2Seg provides the global receptive field in
contrast to CNN's local receptive field, which shows excellent advantages over
pure CNN architectures. Secondly, by formulating semantic segmentation as a
problem of dictionary look-up, we design a set of learnable prototypes as the
query of Trans2Seg's transformer decoder, where each prototype learns the
statistics of one category in the whole dataset. We benchmark more than 20
recent semantic segmentation methods, demonstrating that Trans2Seg
significantly outperforms all the CNN-based methods, showing the proposed
algorithm's potential ability to solve transparent object segmentation.
- Abstract(参考訳): この研究は、最初の大規模な透明オブジェクトセグメンテーションデータセットであるtrans10k-v2と呼ばれる新しい細粒度透明オブジェクトセグメンテーションデータセットを提案する。
カテゴリが2つしかないTrans10K-v1とは異なり、新しいデータセットにはいくつかの魅力的なメリットがあります。
1) 人間の家庭環境において一般的に発生する透明な物体の微細なカテゴリが11個あり, 現実の応用に有効である。
2) Trans10K-v2は、現在の高度なセグメンテーション手法に、以前のバージョンよりも多くの課題をもたらす。
さらに,Trans2Segと呼ばれるトランスフォーマーベースセグメンテーションパイプラインを提案する。
第一に、Trans2Segのトランスフォーマーエンコーダは、純粋なCNNアーキテクチャよりも優れた利点を示すCNNのローカルレセプティブフィールドとは対照的に、グローバルレセプティブフィールドを提供する。
次に、辞書検索の課題としてセマンティックセグメンテーションを定式化することにより、Trans2Segのトランスフォーマーデコーダのクエリとして学習可能なプロトタイプを設計し、各プロトタイプがデータセット全体の1つのカテゴリの統計を学習する。
最近の20以上のセマンティクスセグメンテーション法をベンチマークし、trans2segがcnnベースの手法を圧倒的に上回り、提案アルゴリズムが透明なオブジェクトセグメンテーションを解決できる可能性を示した。
関連論文リスト
- Dual-Augmented Transformer Network for Weakly Supervised Semantic
Segmentation [4.02487511510606]
弱教師付きセマンティックセグメンテーション(WSSS)は、クラスレベルのラベルのみにオブジェクトを分割することを目的とした、基本的なコンピュータビジョンタスクである。
従来の手法では、CNNベースのネットワークを採用し、クラスアクティベーションマップ(CAM)戦略を用いて対象領域を発見する。
別の方法は、視覚変換器(ViT)を探索して画像を符号化し、グローバルな意味情報を取得することである。
相互補完学習のためのCNNベースネットワークとトランスフォーマーネットワークを併用したデュアルネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T08:41:11Z) - HGFormer: Hierarchical Grouping Transformer for Domain Generalized
Semantic Segmentation [113.6560373226501]
本研究は領域一般化設定の下で意味的セグメンテーションを研究する。
本稿では,階層型グループ化変換器(HGFormer)を提案する。
実験により、HGFormerはピクセルごとの分類法やフラットグルーピング変換器よりも、より堅牢なセマンティックセグメンテーション結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-22T13:33:41Z) - SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation [94.11915008006483]
ポイントクラウドセマンティックセグメンテーションのためのSemAffiNetを提案する。
我々はScanNetV2とNYUv2データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-05-26T17:00:23Z) - WegFormer: Transformers for Weakly Supervised Semantic Segmentation [32.3201557200616]
この作業では、Transformerを導入し、WegFormerと呼ばれるシンプルで効果的なWSSSフレームワークを構築します。
既存のCNNベースの方法とは異なり、WegFormerはVision Transformerを分類器として使用し、高品質な擬似セグメンテーションマスクを生成する。
WegFormerはPASCAL VOCデータセット上で最先端の70.5% mIoUを達成し、以前のベストメソッドを大幅に上回っている。
論文 参考訳(メタデータ) (2022-03-16T06:50:31Z) - SegTransVAE: Hybrid CNN -- Transformer with Regularization for medical
image segmentation [0.0]
本稿では,SegTransVAEという新しいネットワークを提案する。
SegTransVAEはエンコーダ-デコーダアーキテクチャに基づいて構築されており、ネットワークへの可変オートエンコーダ(VAE)ブランチでトランスフォーマーを利用する。
最近導入されたデータセットの評価によると、SegTransVAEはDice Scoreと95%$-Haudorff Distanceで過去の手法より優れている。
論文 参考訳(メタデータ) (2022-01-21T08:02:55Z) - SOTR: Segmenting Objects with Transformers [0.0]
高品質なインスタンスセグメンテーションのための,新しい,フレキシブルで効果的なトランスフォーマーベースモデルを提案する。
提案手法は, TRansformer (SOTR) を用いたSegmenting Objects (Segmenting Objects) により, 分割パイプラインを単純化する。
我々のSOTRはMS COCOデータセットでよく機能し、最先端のインスタンスセグメンテーションアプローチを超えています。
論文 参考訳(メタデータ) (2021-08-15T14:10:11Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Segmenting Transparent Objects in the Wild [98.80906604285163]
本研究は,手作業による注釈付き実シナリオの画像10,428枚からなるトランス10Kという,透明なオブジェクトセグメンテーションのための大規模データセットを提案する。
Trans10Kの有効性を評価するために,TransLabと呼ばれる新しい境界認識セグメンテーション手法を提案する。
論文 参考訳(メタデータ) (2020-03-31T04:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。