論文の概要: MaSS13K: A Matting-level Semantic Segmentation Benchmark
- arxiv url: http://arxiv.org/abs/2503.18364v1
- Date: Mon, 24 Mar 2025 05:59:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:10.844563
- Title: MaSS13K: A Matting-level Semantic Segmentation Benchmark
- Title(参考訳): MaSS13K: マットレベルのセマンティックセマンティックセグメンテーションベンチマーク
- Authors: Chenxi Xie, Minghan Li, Hui Zeng, Jun Luo, Lei Zhang,
- Abstract要約: マットレベルのセマンティックセマンティックセマンティックセマンティクスデータセットであるMaSS13Kを構築し、4K解像度で13,348個の実世界の画像からなる。
マスクの複雑さは、既存のセマンティックセグメンテーションデータセットの20~50倍である。
本稿では,高解像度なセマンティックセマンティックセグメンテーション,すなわち,効率的な画素デコーダを用いたMaSSFormerを提案する。
- 参考スコア(独自算出の注目度): 31.18078352823012
- License:
- Abstract: High-resolution semantic segmentation is essential for applications such as image editing, bokeh imaging, AR/VR, etc. Unfortunately, existing datasets often have limited resolution and lack precise mask details and boundaries. In this work, we build a large-scale, matting-level semantic segmentation dataset, named MaSS13K, which consists of 13,348 real-world images, all at 4K resolution. MaSS13K provides high-quality mask annotations of a number of objects, which are categorized into seven categories: human, vegetation, ground, sky, water, building, and others. MaSS13K features precise masks, with an average mask complexity 20-50 times higher than existing semantic segmentation datasets. We consequently present a method specifically designed for high-resolution semantic segmentation, namely MaSSFormer, which employs an efficient pixel decoder that aggregates high-level semantic features and low-level texture features across three stages, aiming to produce high-resolution masks with minimal computational cost. Finally, we propose a new learning paradigm, which integrates the high-quality masks of the seven given categories with pseudo labels from new classes, enabling MaSSFormer to transfer its accurate segmentation capability to other classes of objects. Our proposed MaSSFormer is comprehensively evaluated on the MaSS13K benchmark together with 14 representative segmentation models. We expect that our meticulously annotated MaSS13K dataset and the MaSSFormer model can facilitate the research of high-resolution and high-quality semantic segmentation. Datasets and codes can be found at https://github.com/xiechenxi99/MaSS13K.
- Abstract(参考訳): 高解像度セマンティックセグメンテーションは、画像編集、ボケイメージング、AR/VRなどのアプリケーションに不可欠である。
残念ながら、既存のデータセットは解像度が限られており、正確なマスクの詳細とバウンダリがないことが多い。
そこで本研究では,MaSS13Kという,大規模でマットレベルのセマンティックセマンティックセマンティックセマンティクスデータセットを構築した。
MaSS13Kは、多数のオブジェクトの高品質なマスクアノテーションを提供しており、それらは、人間、植物、地面、空、水、建物、その他の7つのカテゴリに分類される。
マスクの複雑さは、既存のセマンティックセグメンテーションデータセットの20~50倍である。
そこで我々は,高解像度なセマンティックセマンティックセグメンテーション,すなわち,高レベルなセマンティック特徴と低レベルなテクスチャ特徴を3段階にわたって集約する効率的な画素デコーダを用いて,最小計算コストで高解像度なマスクを作成することを目的とした,高解像度セマンティックセマンティックセマンティックセマンティックセグメンテーションのための方法を提案する。
最後に、7つのカテゴリの高品質マスクを新しいクラスからの擬似ラベルと統合し、MaSSFormerがその正確なセグメンテーション能力を他のクラスのオブジェクトに転送できるようにする新しい学習パラダイムを提案する。
提案するMaSSFormerは,14個の代表セグメンテーションモデルとともに,MaSS13Kベンチマークで総合的に評価する。
我々は,MASS13KデータセットとMaSSFormerモデルにより,高解像度で高品質なセマンティックセマンティックセグメンテーションの研究が容易になることを期待している。
データセットとコードはhttps://github.com/xiechenxi99/MaSS13Kで見ることができる。
関連論文リスト
- Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - MixReorg: Cross-Modal Mixed Patch Reorganization is a Good Mask Learner
for Open-World Semantic Segmentation [110.09800389100599]
セマンティックセグメンテーションのための新鮮で簡単な事前学習パラダイムであるMixReorgを提案する。
我々のアプローチは、パッチとテキストの対応を保ちながら、画像パッチを混合することで、きめ細かいパッチテキストペアデータを生成することである。
マスク学習者としてMixReorgを使用することで、従来のテキスト教師付きセマンティックセマンティックセマンティックモデルは、非常に一般化可能なピクセル・セマンティックアライメントを実現することができる。
論文 参考訳(メタデータ) (2023-08-09T09:35:16Z) - MaskRange: A Mask-classification Model for Range-view based LiDAR
Segmentation [34.04740351544143]
本研究では,範囲ビューに基づくLiDARセマンティクスとパノプティックセグメンテーションのためのマスク分類モデルMaskRangeを提案する。
我々のMaskRangeは、セマンティックセグメンテーションにおける6.10ドルmIoUの最先端性能と、高い効率でパノプティクスセグメンテーションにおける53.10ドルPQの有望な結果を達成する。
論文 参考訳(メタデータ) (2022-06-24T04:39:49Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Masked-attention Mask Transformer for Universal Image Segmentation [180.73009259614494]
Masked-attention Mask Transformer (Mask2Former)は,任意の画像セグメンテーションタスク(パノプティクス,インスタンス,セマンティクス)に対処可能な新しいアーキテクチャである。
主要な構成要素は、予測されたマスク領域内での横断的な注意を制限して、局所的な特徴を抽出するマスクアテンションである。
研究の労力を少なくとも3倍に削減することに加えて、4つの一般的なデータセットにおいて、最高の特殊アーキテクチャよりも大きなマージンを達成している。
論文 参考訳(メタデータ) (2021-12-02T18:59:58Z) - Per-Pixel Classification is Not All You Need for Semantic Segmentation [184.2905747595058]
マスク分類はセマンティックレベルのセグメンテーションタスクとインスタンスレベルのセグメンテーションタスクの両方を解くのに十分一般的である。
マスクの集合を予測する単純なマスク分類モデルであるMaskFormerを提案する。
提案手法は,現在の最先端セマンティック(ADE20Kでは55.6 mIoU)とパノプティックセグメンテーション(COCOでは52.7 PQ)モデルの両方に優れる。
論文 参考訳(メタデータ) (2021-07-13T17:59:50Z) - Three Ways to Improve Semantic Segmentation with Self-Supervised Depth
Estimation [90.87105131054419]
ラベルなし画像列からの自己教師付き単眼深度推定により強化された半教師付きセマンティックセマンティックセマンティックセマンティクスのフレームワークを提案する。
提案されたモデルをCityscapesデータセット上で検証する。
論文 参考訳(メタデータ) (2020-12-19T21:18:03Z) - Meticulous Object Segmentation [37.48446050876045]
Meticulous Object segmentation (MOS) というタスクを提案し,検討する。
MeticulousNetは専用のデコーダを使用してオブジェクト境界の詳細をキャプチャする。
我々は,MeticulousNetが画素精度のセグメンテーション境界を明確化できることを示す実証的証拠を提供する。
論文 参考訳(メタデータ) (2020-12-13T23:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。