論文の概要: CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2206.08948v1
- Date: Fri, 17 Jun 2022 18:01:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 17:11:08.617660
- Title: CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation
- Title(参考訳): CMT-DeepLab: パノプティックセグメンテーションのためのクラスタリングマスク変換器
- Authors: Qihang Yu, Huiyu Wang, Dahun Kim, Siyuan Qiao, Maxwell Collins, Yukun
Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen
- Abstract要約: Clustering Mask Transformer (CMT-DeepLab)は、クラスタリングを中心に設計されたパン光学セグメンテーションのためのトランスフォーマーベースのフレームワークである。
CMT-DeepLabはCOCOテストデブセットで55.7%のPQを新たに達成した。
- 参考スコア(独自算出の注目度): 47.26375888436146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose Clustering Mask Transformer (CMT-DeepLab), a transformer-based
framework for panoptic segmentation designed around clustering. It rethinks the
existing transformer architectures used in segmentation and detection;
CMT-DeepLab considers the object queries as cluster centers, which fill the
role of grouping the pixels when applied to segmentation. The clustering is
computed with an alternating procedure, by first assigning pixels to the
clusters by their feature affinity, and then updating the cluster centers and
pixel features. Together, these operations comprise the Clustering Mask
Transformer (CMT) layer, which produces cross-attention that is denser and more
consistent with the final segmentation task. CMT-DeepLab improves the
performance over prior art significantly by 4.4% PQ, achieving a new
state-of-the-art of 55.7% PQ on the COCO test-dev set.
- Abstract(参考訳): CMT-DeepLabは,クラスタリングを主軸としたパン光学セグメンテーションのためのトランスフォーマベースのフレームワークである。
cmt-deeplabでは、オブジェクトクエリをクラスタセンタとして捉えており、セグメンテーションに適用されるピクセルをグループ化する役割を担っている。
クラスタリングは、まずその特徴親和性によってクラスタにピクセルを割り当て、次にクラスタセンターとピクセルの特徴を更新することで、交互に計算される。
これらの操作はクラスタリングマスク変換器(CMT)レイヤで構成されており、最終セグメンテーションタスクとより密で一貫性のあるクロスアテンションを生成する。
CMT-DeepLabは先行技術よりもパフォーマンスを4.4%向上させ、COCOテストデブセットで55.7%のPQを新たに達成した。
関連論文リスト
- ClusterFormer: Clustering As A Universal Visual Learner [80.79669078819562]
CLUSTERFORMERは、トランスフォーマーを用いたCLUSTERingパラダイムに基づくユニバーサルビジョンモデルである。
不均一な視覚タスクに様々なレベルのクラスタリングの粒度で対処することができる。
その有効性のために、コンピュータビジョンにおける普遍モデルにおけるパラダイムシフトを触媒できることを期待します。
論文 参考訳(メタデータ) (2023-09-22T22:12:30Z) - CLUSTSEG: Clustering for Universal Segmentation [56.58677563046506]
CLUSTSEGは画像セグメンテーションのための一般的なトランスフォーマーベースのフレームワークである。
これは、統合されたニューラルクラスタリングスキームを通じて、異なるイメージセグメンテーションタスク(スーパーピクセル、セマンティック、インスタンス、パノプティクス)に取り組む。
論文 参考訳(メタデータ) (2023-05-03T15:31:16Z) - SegViT: Semantic Segmentation with Plain Vision Transformers [91.50075506561598]
意味的セグメンテーションのための平易な視覚変換器(ViT)の能力について検討する。
本研究では,学習可能なクラストークンの集合と空間特徴マップの類似性をセグメンテーションマスクに転送するATMモジュールを提案する。
実験の結果,ATMモジュールを用いたSegVitは,通常のViTバックボーンよりも優れていることがわかった。
論文 参考訳(メタデータ) (2022-10-12T00:30:26Z) - Towards Robust Video Object Segmentation with Adaptive Object
Calibration [18.094698623128146]
ビデオオブジェクトセグメンテーション(VOS)は、参照フレームの注釈付きオブジェクトマスクを与えられたビデオのすべてのターゲットフレームにおけるオブジェクトのセグメンテーションを目的としている。
本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクを校正して強靭性を実現する,新しいディープネットワークを提案する。
本モデルは,既存の出版作品の最先端性能を達成し,摂動に対する優れた堅牢性を示す。
論文 参考訳(メタデータ) (2022-07-02T17:51:29Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - DeepCluE: Enhanced Image Clustering via Multi-layer Ensembles in Deep
Neural Networks [53.88811980967342]
本稿では,Ensembles (DeepCluE) を用いたDeep Clusteringを提案する。
ディープニューラルネットワークにおける複数のレイヤのパワーを活用することで、ディープクラスタリングとアンサンブルクラスタリングのギャップを埋める。
6つの画像データセットの実験結果から、最先端のディープクラスタリングアプローチに対するDeepCluEの利点が確認されている。
論文 参考訳(メタデータ) (2022-06-01T09:51:38Z) - Clustering as Attention: Unified Image Segmentation with Hierarchical
Clustering [11.696069523681178]
本稿では、HCFormerと呼ばれる深層ニューラルネットワークのための階層的クラスタリングに基づく画像分割手法を提案する。
画像のセグメンテーションは、セマンティック、インスタンス、パノプティックセグメンテーションを含む、ピクセルクラスタリングの問題として解釈し、ディープニューラルネットワークを用いたボトムアップ階層クラスタリングによって達成する。
論文 参考訳(メタデータ) (2022-05-20T03:53:56Z) - Pyramid Fusion Transformer for Semantic Segmentation [44.57867861592341]
マルチスケール特徴量を持つマスク毎のセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-01-11T16:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。