論文の概要: Mask DINO: Towards A Unified Transformer-based Framework for Object
Detection and Segmentation
- arxiv url: http://arxiv.org/abs/2206.02777v1
- Date: Mon, 6 Jun 2022 17:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:06:23.662313
- Title: Mask DINO: Towards A Unified Transformer-based Framework for Object
Detection and Segmentation
- Title(参考訳): Mask DINO:オブジェクト検出とセグメンテーションのための統一トランスフォーマーベースのフレームワーク
- Authors: Feng Li, Hao Zhang, Huaizhe xu, Shilong Liu, Lei Zhang, Lionel M. Ni,
and Heung-Yeung Shum
- Abstract要約: Mask DINOは統合されたオブジェクト検出とセグメンテーションフレームワークである。
Mask DINOはシンプルで、効率的で、スケーラブルで、共同で大規模な検出とセグメンテーションデータセットの恩恵を受けています。
- 参考スコア(独自算出の注目度): 15.826822450977271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we present Mask DINO, a unified object detection and
segmentation framework. Mask DINO extends DINO (DETR with Improved Denoising
Anchor Boxes) by adding a mask prediction branch which supports all image
segmentation tasks (instance, panoptic, and semantic). It makes use of the
query embeddings from DINO to dot-product a high-resolution pixel embedding map
to predict a set of binary masks. Some key components in DINO are extended for
segmentation through a shared architecture and training process. Mask DINO is
simple, efficient, scalable, and benefits from joint large-scale detection and
segmentation datasets. Our experiments show that Mask DINO significantly
outperforms all existing specialized segmentation methods, both on a ResNet-50
backbone and a pre-trained model with SwinL backbone. Notably, Mask DINO
establishes the best results to date on instance segmentation (54.5 AP on
COCO), panoptic segmentation (59.4 PQ on COCO), and semantic segmentation (60.8
mIoU on ADE20K). Code will be avaliable at
\url{https://github.com/IDEACVR/MaskDINO}.
- Abstract(参考訳): 本稿では,オブジェクト検出とセグメンテーションの統一フレームワークであるMask DINOについて述べる。
Mask DINOはDINO(DeTR with Improved Denoising Anchor Boxes)を拡張し、すべてのイメージセグメンテーションタスク(インスタンス、パノプティクス、セマンティクス)をサポートするマスク予測ブランチを追加する。
DINOからドット製品へのクエリ埋め込みを利用して、バイナリマスクのセットを予測する高解像度のピクセル埋め込みマップを生成する。
DINOの主要なコンポーネントは、共有アーキテクチャとトレーニングプロセスを通じてセグメンテーションのために拡張されている。
mask dinoはシンプルで効率的でスケーラブルで、大規模な検出とセグメンテーションデータセットの統合によるメリットがある。
実験の結果,Mask DINOはResNet-50バックボーンとSwinLバックボーンを用いた事前学習モデルの両方において,既存のセグメンテーション手法を著しく上回っていることがわかった。
特に、Dino Maskは、インスタンスセグメンテーション(COCOでは54.5 AP)、汎光学セグメンテーション(COCOでは59.4 PQ)、セマンティックセグメンテーション(ADE20Kでは60.8 mIoU)で現在までの最良の結果を確立している。
コードは \url{https://github.com/IDEACVR/MaskDINO} で無効になる。
関連論文リスト
- MaskUno: Switch-Split Block For Enhancing Instance Segmentation [0.0]
マスク予測を洗練されたROIを処理し、それらを分類し、特定のマスク予測者に割り当てるスイッチスプリットブロックに置き換えることを提案する。
平均平均精度(mAP)が2.03%上昇し,80クラスにおいて高い成績を示した。
論文 参考訳(メタデータ) (2024-07-31T10:12:14Z) - MaskRange: A Mask-classification Model for Range-view based LiDAR
Segmentation [34.04740351544143]
本研究では,範囲ビューに基づくLiDARセマンティクスとパノプティックセグメンテーションのためのマスク分類モデルMaskRangeを提案する。
我々のMaskRangeは、セマンティックセグメンテーションにおける6.10ドルmIoUの最先端性能と、高い効率でパノプティクスセグメンテーションにおける53.10ドルPQの有望な結果を達成する。
論文 参考訳(メタデータ) (2022-06-24T04:39:49Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Masked-attention Mask Transformer for Universal Image Segmentation [180.73009259614494]
Masked-attention Mask Transformer (Mask2Former)は,任意の画像セグメンテーションタスク(パノプティクス,インスタンス,セマンティクス)に対処可能な新しいアーキテクチャである。
主要な構成要素は、予測されたマスク領域内での横断的な注意を制限して、局所的な特徴を抽出するマスクアテンションである。
研究の労力を少なくとも3倍に削減することに加えて、4つの一般的なデータセットにおいて、最高の特殊アーキテクチャよりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-12-02T18:59:58Z) - Mask is All You Need: Rethinking Mask R-CNN for Dense and
Arbitrary-Shaped Scene Text Detection [11.390163890611246]
Mask R-CNNは、任意の形のシーンテキストの検出とスポッティングのための強力なベースラインとして広く採用されている。
1つの提案には複数のインスタンスが存在する可能性があるため、マスクヘッドが異なるインスタンスを区別し、パフォーマンスを劣化させるのが難しくなる。
本稿では,各画素をテキストや非テキストに分類するのではなく,マスクヘッドがインスタンス全体の形状を予測することを学習する事例認識型マスク学習を提案する。
論文 参考訳(メタデータ) (2021-09-08T04:32:29Z) - RefineMask: Towards High-Quality Instance Segmentation with Fine-Grained
Features [53.71163467683838]
RefineMaskは、オブジェクトやシーンの高品質なインスタンスセグメンテーションのための新しい方法です。
インスタンス毎のセグメンテーションプロセス中に粒度の細かい機能を多段階的に組み込む。
以前のほとんどのメソッドで過剰にスムースされたオブジェクトの曲がった部分のようなハードケースをセグメンテーションすることに成功します。
論文 参考訳(メタデータ) (2021-04-17T15:09:20Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z) - Mask Encoding for Single Shot Instance Segmentation [97.99956029224622]
マスクエンコーディングに基づくインスタンスセグメンテーション(MEInst)と呼ばれる単純なシングルショットインスタンスセグメンテーションフレームワークを提案する。
二次元マスクを直接予測する代わりに、MEInstはそれをコンパクトで固定的な表現ベクトルに蒸留する。
よりシンプルでフレキシブルな一段階のインスタンスセグメンテーション手法は、競合性能も達成できることを示す。
論文 参考訳(メタデータ) (2020-03-26T02:51:17Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。