論文の概要: Occlusion-Aware Seamless Segmentation
- arxiv url: http://arxiv.org/abs/2407.02182v3
- Date: Wed, 20 Nov 2024 11:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:09:27.287189
- Title: Occlusion-Aware Seamless Segmentation
- Title(参考訳): 閉塞型シームレスセグメンテーション
- Authors: Yihong Cao, Jiaming Zhang, Hao Shi, Kunyu Peng, Yuhongxuan Zhang, Hui Zhang, Rainer Stiefelhagen, Kailun Yang,
- Abstract要約: これら3つの課題に同時に取り組む新しいタスク,Occlusion-Aware Seamless (OASS)を導入する。
ベンチマークのために、Blending Panoramic Amodal Seamlessのための新しい人間アノテーション付きデータセットを構築した。
BlendPASSデータセットの最先端性能を達成し、26.58%、mIoU43.66%という驚くべきmAPQに達した。
- 参考スコア(独自算出の注目度): 38.75932764694952
- License:
- Abstract: Panoramic images can broaden the Field of View (FoV), occlusion-aware prediction can deepen the understanding of the scene, and domain adaptation can transfer across viewing domains. In this work, we introduce a novel task, Occlusion-Aware Seamless Segmentation (OASS), which simultaneously tackles all these three challenges. For benchmarking OASS, we establish a new human-annotated dataset for Blending Panoramic Amodal Seamless Segmentation, i.e., BlendPASS. Besides, we propose the first solution UnmaskFormer, aiming at unmasking the narrow FoV, occlusions, and domain gaps all at once. Specifically, UnmaskFormer includes the crucial designs of Unmasking Attention (UA) and Amodal-oriented Mix (AoMix). Our method achieves state-of-the-art performance on the BlendPASS dataset, reaching a remarkable mAPQ of 26.58% and mIoU of 43.66%. On public panoramic semantic segmentation datasets, i.e., SynPASS and DensePASS, our method outperforms previous methods and obtains 45.34% and 48.08% in mIoU, respectively. The fresh BlendPASS dataset and our source code are available at https://github.com/yihong-97/OASS.
- Abstract(参考訳): パノラマ画像は視野(FoV)を広げ、オクルージョンを意識した予測はシーンの理解を深め、ドメイン適応は視野領域をまたいで転送することができる。
本稿では,OASS(Occlusion-Aware Seamless Segmentation)という新たな課題を紹介し,これら3つの課題に同時に取り組む。
OASSをベンチマークするために、Blending Panoramic Amodal Seamless Segmentation(BlendPASS)のための新しい人間アノテーションデータセットを構築した。
さらに,狭いFoV,オクルージョン,ドメインギャップを一度に解き放つことを目的とした,UnmaskFormerを提案する。
具体的には、UnmaskFormerには、Unmasking Attention (UA) と Amodal-oriented Mix (AoMix) の重要な設計が含まれている。
BlendPASSデータセットの最先端性能を達成し、26.58%、mIoU43.66%という驚くべきmAPQに達した。
公共パノラマセマンティックセマンティックセグメンテーションデータセット、すなわちSynPASSとDensePASSでは、従来の手法よりも優れ、mIoUでそれぞれ45.34%と48.08%を得る。
新しいBlendPASSデータセットとソースコードはhttps://github.com/yihong-97/OASS.comで入手できる。
関連論文リスト
- Bridge the Points: Graph-based Few-shot Segment Anything Semantically [79.1519244940518]
プレトレーニング技術の最近の進歩により、視覚基礎モデルの能力が向上した。
最近の研究はSAMをFew-shot Semantic segmentation (FSS)に拡張している。
本稿では,グラフ解析に基づく簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:02:28Z) - LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - PosSAM: Panoptic Open-vocabulary Segment Anything [58.72494640363136]
PosSAMはオープン・ボキャブラリ・パノプティ・セグメンテーション・モデルであり、Segment Anything Model(SAM)の強みを、エンドツーエンドのフレームワークで視覚ネイティブのCLIPモデルと統合する。
本稿では,マスクの質を適応的に向上し,各画像の推論中にオープン語彙分類の性能を高めるマスク対応選択組立アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-14T17:55:03Z) - The Devil is in the Points: Weakly Semi-Supervised Instance Segmentation
via Point-Guided Mask Representation [61.027468209465354]
本稿では,ポイントラベル付き弱半教師付きインスタンスセグメンテーション(WSSIS)という新しい学習手法を提案する。
本稿では、予算に優しいポイントラベルを強力な弱監督源として効果的に活用できるWSSISの手法を提案する。
我々はCOCOとBDD100Kデータセットの広範な実験を行い、提案手法は完全な教師付きモデルのデータセットに匹敵する有望な結果を得る。
論文 参考訳(メタデータ) (2023-03-27T10:11:22Z) - MaskRange: A Mask-classification Model for Range-view based LiDAR
Segmentation [34.04740351544143]
本研究では,範囲ビューに基づくLiDARセマンティクスとパノプティックセグメンテーションのためのマスク分類モデルMaskRangeを提案する。
我々のMaskRangeは、セマンティックセグメンテーションにおける6.10ドルmIoUの最先端性能と、高い効率でパノプティクスセグメンテーションにおける53.10ドルPQの有望な結果を達成する。
論文 参考訳(メタデータ) (2022-06-24T04:39:49Z) - Mask DINO: Towards A Unified Transformer-based Framework for Object
Detection and Segmentation [15.826822450977271]
Mask DINOは統合されたオブジェクト検出とセグメンテーションフレームワークである。
Mask DINOはシンプルで、効率的で、スケーラブルで、共同で大規模な検出とセグメンテーションデータセットの恩恵を受けています。
論文 参考訳(メタデータ) (2022-06-06T17:57:25Z) - Pyramid Fusion Transformer for Semantic Segmentation [44.57867861592341]
マルチスケール特徴量を持つマスク毎のセマンティックセマンティックセグメンテーションのためのトランスフォーマベースピラミッドフュージョントランス (PFT) を提案する。
広く使われている3つのセマンティックセグメンテーションデータセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-01-11T16:09:25Z) - PFENet++: Boosting Few-shot Semantic Segmentation with the
Noise-filtered Context-aware Prior Mask [62.37727055343632]
「Few-Shot」のためのガイド機能強化ネットワークで提案された以前のマスクガイダンスを再考する。
本稿では,クエリ画像中のオブジェクトの配置を改善するために,近隣のセマンティックキューを活用するコンテキスト対応プリエントマスク(CAPM)を提案する。
我々は、不要な応答をスクリーニングするために、軽量ノイズ抑圧モジュール(NSM)を組み込むことにより、さらに一歩前進する。
論文 参考訳(メタデータ) (2021-09-28T15:07:43Z) - Human De-occlusion: Invisible Perception and Recovery for Humans [26.404444296924243]
我々は,人間の閉ざされたセグメンテーションマスクと目に見えない外観内容の理由から,人間の閉ざしの問題に取り組む。
特に,見えない部分を推定し,内部を復元するための2段階フレームワークが提案されている。
本手法は,マスク補完作業とコンテンツ回復作業の両方において,最先端技術上で動作する。
論文 参考訳(メタデータ) (2021-03-22T05:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。