論文の概要: Masked-attention Mask Transformer for Universal Image Segmentation
- arxiv url: http://arxiv.org/abs/2112.01527v1
- Date: Thu, 2 Dec 2021 18:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:09:36.175430
- Title: Masked-attention Mask Transformer for Universal Image Segmentation
- Title(参考訳): ユニバーサル画像分割のためのマスク変換器
- Authors: Bowen Cheng and Ishan Misra and Alexander G. Schwing and Alexander
Kirillov and Rohit Girdhar
- Abstract要約: Masked-attention Mask Transformer (Mask2Former)は,任意の画像セグメンテーションタスク(パノプティクス,インスタンス,セマンティクス)に対処可能な新しいアーキテクチャである。
主要な構成要素は、予測されたマスク領域内での横断的な注意を制限して、局所的な特徴を抽出するマスクアテンションである。
研究の労力を少なくとも3倍に削減することに加えて、4つの一般的なデータセットにおいて、最高の特殊アーキテクチャよりも大きなマージンを達成している。
- 参考スコア(独自算出の注目度): 180.73009259614494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image segmentation is about grouping pixels with different semantics, e.g.,
category or instance membership, where each choice of semantics defines a task.
While only the semantics of each task differ, current research focuses on
designing specialized architectures for each task. We present Masked-attention
Mask Transformer (Mask2Former), a new architecture capable of addressing any
image segmentation task (panoptic, instance or semantic). Its key components
include masked attention, which extracts localized features by constraining
cross-attention within predicted mask regions. In addition to reducing the
research effort by at least three times, it outperforms the best specialized
architectures by a significant margin on four popular datasets. Most notably,
Mask2Former sets a new state-of-the-art for panoptic segmentation (57.8 PQ on
COCO), instance segmentation (50.1 AP on COCO) and semantic segmentation (57.7
mIoU on ADE20K).
- Abstract(参考訳): イメージセグメンテーション(Image segmentation)とは、カテゴリやインスタンスのメンバシップなど、異なるセマンティクスでピクセルをグループ化することである。
それぞれのタスクのセマンティクスが異なるが、現在の研究はタスクごとに特別なアーキテクチャを設計することに焦点を当てている。
Masked-attention Mask Transformer (Mask2Former)は,任意の画像セグメンテーションタスク(パノプティクス,インスタンス,セマンティクス)に対処できる新しいアーキテクチャである。
主要な構成要素は、予測されたマスク領域内での横断的注意を制限して局所的な特徴を抽出するマスク注意である。
研究の労力を少なくとも3倍に削減することに加えて、4つの一般的なデータセットにおいて、最高の特殊アーキテクチャよりも大きなマージンを持つ。
特に、mask2formerはpanoptic segmentation(coco上で57.8 pq)、インスタンスセグメンテーション(coco上で50.1 ap)、セマンティックセグメンテーション(ade20k上で57.7 miou)のための新しい最先端セグメンテーションを設定する。
関連論文リスト
- The revenge of BiSeNet: Efficient Multi-Task Image Segmentation [6.172605433695617]
BiSeNetFormerは、効率的なマルチタスク画像セグメンテーションのための新しいアーキテクチャである。
複数のタスクをシームレスにサポートすることで、BiSeNetFormerはマルチタスクセグメンテーションのための汎用的なソリューションを提供する。
以上の結果から, BiSeNetFormerは高速, 効率的, マルチタスクセグメンテーションネットワークへの大きな進歩を示していることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T08:32:18Z) - Unsupervised Universal Image Segmentation [59.0383635597103]
本稿では,Unsupervised Universal Model (U2Seg) を提案する。
U2Segは、自己教師付きモデルを利用して、これらのセグメンテーションタスクの擬似意味ラベルを生成する。
次に、これらの擬似意味ラベル上でモデルを自己学習し、かなりの性能向上をもたらす。
論文 参考訳(メタデータ) (2023-12-28T18:59:04Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Mask DINO: Towards A Unified Transformer-based Framework for Object
Detection and Segmentation [15.826822450977271]
Mask DINOは統合されたオブジェクト検出とセグメンテーションフレームワークである。
Mask DINOはシンプルで、効率的で、スケーラブルで、共同で大規模な検出とセグメンテーションデータセットの恩恵を受けています。
論文 参考訳(メタデータ) (2022-06-06T17:57:25Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Few-shot semantic segmentation via mask aggregation [5.886986014593717]
セマンティックセグメンテーションは、ラベル付きデータが少ない新しいクラスを認識することを目的としている。
従来の研究では、これをピクセル単位の分類問題と見なしていた。
この問題に対処するためのマスクベースの分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T07:13:09Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。