論文の概要: Per-Pixel Classification is Not All You Need for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2107.06278v1
- Date: Tue, 13 Jul 2021 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:39:14.937808
- Title: Per-Pixel Classification is Not All You Need for Semantic Segmentation
- Title(参考訳): ピクセル単位の分類は意味的セグメンテーションに必要な全てではない
- Authors: Bowen Cheng and Alexander G. Schwing and Alexander Kirillov
- Abstract要約: マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
- 参考スコア(独自算出の注目度): 184.2905747595058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern approaches typically formulate semantic segmentation as a per-pixel
classification task, while instance-level segmentation is handled with an
alternative mask classification. Our key insight: mask classification is
sufficiently general to solve both semantic- and instance-level segmentation
tasks in a unified manner using the exact same model, loss, and training
procedure. Following this observation, we propose MaskFormer, a simple mask
classification model which predicts a set of binary masks, each associated with
a single global class label prediction. Overall, the proposed mask
classification-based method simplifies the landscape of effective approaches to
semantic and panoptic segmentation tasks and shows excellent empirical results.
In particular, we observe that MaskFormer outperforms per-pixel classification
baselines when the number of classes is large. Our mask classification-based
method outperforms both current state-of-the-art semantic (55.6 mIoU on ADE20K)
and panoptic segmentation (52.7 PQ on COCO) models.
- Abstract(参考訳): 現代のアプローチでは、セマンティックセグメンテーションはピクセル単位の分類タスクとして定式化され、インスタンスレベルのセグメンテーションは代替マスクの分類で扱われる。
我々の重要な洞察は、マスク分類は、全く同じモデル、損失、訓練手順を用いて意味論的およびインスタンスレベルのセグメンテーションタスクを統一的に解くのに十分一般的なものである。
そこで本研究では,単一グローバルクラスラベルの予測に関連付けられた2値マスクの集合を予測するシンプルなマスク分類モデルMaskFormerを提案する。
総合的に,マスク分類に基づく手法は,意味的・単眼的セグメンテーションタスクに対する効果的なアプローチの景観を単純化し,優れた経験的結果を示す。
特に,クラス数が大きくなると,MaskFormerがピクセル単位の分類ベースラインを上回っている。
マスク分類に基づく手法は,現在最先端のセマンティクス(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
関連論文リスト
- Mask2Anomaly: Mask Transformer for Universal Open-set Segmentation [29.43462426812185]
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
マスクをベースとしたMask2Anomalyは,マスク分類アーキテクチャの統合の可能性を示した。
総合的質的・質的評価により, Mask2Anomaly は新たな最先端結果が得られることを示す。
論文 参考訳(メタデータ) (2023-09-08T20:07:18Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - Unmasking Anomalies in Road-Scene Segmentation [18.253109627901566]
異常セグメンテーションはアプリケーションを駆動するための重要なタスクである。
本稿では,画素単位の分類からマスク分類へのシフトによるパラダイム変化を提案する。
Mask2Anomalyはマスク分類アーキテクチャに異常検出手法を統合する可能性を示した。
論文 参考訳(メタデータ) (2023-07-25T08:23:10Z) - MaskRange: A Mask-classification Model for Range-view based LiDAR
Segmentation [34.04740351544143]
本研究では,範囲ビューに基づくLiDARセマンティクスとパノプティックセグメンテーションのためのマスク分類モデルMaskRangeを提案する。
我々のMaskRangeは、セマンティックセグメンテーションにおける6.10ドルmIoUの最先端性能と、高い効率でパノプティクスセグメンテーションにおける53.10ドルPQの有望な結果を達成する。
論文 参考訳(メタデータ) (2022-06-24T04:39:49Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - What You See is What You Classify: Black Box Attributions [61.998683569022006]
我々は、トレーニング済みのブラックボックス分類器であるExpplanandumの属性を予測するために、ディープネットワークであるExplainerを訓練する。
既存のほとんどのアプローチとは異なり、我々の手法はクラス固有のマスクを直接生成することができる。
我々の属性は、視覚的および定量的に確立された方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-23T12:30:04Z) - Few-shot semantic segmentation via mask aggregation [5.886986014593717]
セマンティックセグメンテーションは、ラベル付きデータが少ない新しいクラスを認識することを目的としている。
従来の研究では、これをピクセル単位の分類問題と見なしていた。
この問題に対処するためのマスクベースの分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T07:13:09Z) - Masked-attention Mask Transformer for Universal Image Segmentation [180.73009259614494]
Masked-attention Mask Transformer (Mask2Former)は,任意の画像セグメンテーションタスク(パノプティクス,インスタンス,セマンティクス)に対処可能な新しいアーキテクチャである。
主要な構成要素は、予測されたマスク領域内での横断的な注意を制限して、局所的な特徴を抽出するマスクアテンションである。
研究の労力を少なくとも3倍に削減することに加えて、4つの一般的なデータセットにおいて、最高の特殊アーキテクチャよりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-12-02T18:59:58Z) - Scaling up instance annotation via label propagation [69.8001043244044]
本稿では,オブジェクトセグメンテーションマスクを用いた大規模データセット構築のための高効率アノテーション手法を提案する。
セグメンテーションモデルによるマスク予測に階層的クラスタリングを用いることにより,これらの類似性を生かした。
総アノテーション時間はたった290時間である100万個のオブジェクトセグメンテーションマスクが得られた。
論文 参考訳(メタデータ) (2021-10-05T18:29:34Z) - Investigating and Simplifying Masking-based Saliency Methods for Model
Interpretability [5.387323728379395]
画像の最も情報性の高い領域を識別する残差マップは、モデル解釈可能性に有用である。
唾液マップを作成するための一般的なアプローチは、画像の一部をマスクする入力マスクを生成することである。
マスキングモデルでは,クラス毎に10個のサンプルをトレーニングすることが可能であり,ローカライズエラーが0.7ポイントしか増加せず,いまだにサリエンシマップを生成可能であることを示す。
論文 参考訳(メタデータ) (2020-10-19T18:00:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。