論文の概要: Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2205.14637v1
- Date: Sun, 29 May 2022 12:05:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:40:01.251008
- Title: Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation
- Title(参考訳): 非可視性:提案なしアモーダル・パノプティクス・セグメンテーション
- Authors: Rohit Mohan and Abhinav Valada
- Abstract要約: アモーダル・パノプティクス・セグメンテーションは、世界の認識と認知的理解を結びつけることを目的としている。
我々は、このタスクをマルチラベルおよびマルチクラス問題として扱う、プロポーザルフリーフレームワークを定式化する。
共有バックボーンと非対称なデュアルデコーダを組み込んだネットアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 13.23676270963484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Amodal panoptic segmentation aims to connect the perception of the world to
its cognitive understanding. It entails simultaneously predicting the semantic
labels of visible scene regions and the entire shape of traffic participant
instances, including regions that may be occluded. In this work, we formulate a
proposal-free framework that tackles this task as a multi-label and multi-class
problem by first assigning the amodal masks to different layers according to
their relative occlusion order and then employing amodal instance regression on
each layer independently while learning background semantics. We propose the
\net architecture that incorporates a shared backbone and an asymmetrical
dual-decoder consisting of several modules to facilitate within-scale and
cross-scale feature aggregations, bilateral feature propagation between
decoders, and integration of global instance-level and local pixel-level
occlusion reasoning. Further, we propose the amodal mask refiner that resolves
the ambiguity in complex occlusion scenarios by explicitly leveraging the
embedding of unoccluded instance masks. Extensive evaluation on the BDD100K-APS
and KITTI-360-APS datasets demonstrate that our approach set the new
state-of-the-art on both benchmarks.
- Abstract(参考訳): amodal panoptic segmentationは、世界の知覚と認知的理解を結びつけることを目的としている。
視覚的なシーン領域のセマンティックラベルと、閉鎖される可能性のあるリージョンを含む、トラフィック参加者インスタンス全体の形状を同時に予測する。
本稿では,この課題をマルチラベル・マルチクラス問題として解決する提案フリー・フレームワークを定式化した。まず,アモーダルマスクを異なる層に相対的オクルージョン順序に従って割り当て,その後,背景セマンティクスを学習しながら,各層にアモーダルインスタンス回帰を採用する。
本稿では,共有バックボーンと,複数のモジュールからなる非対称なデュアルデコーダを組み込んだ \net アーキテクチャを提案する。このアーキテクチャは,イントラスケールとクロススケールの機能集約,デコーダ間の双方向的特徴伝達,グローバルインスタンスレベルとローカルピクセルレベルのオクルージョン推論の統合を実現する。
さらに, 隠蔽マスクの埋め込みを明示的に活用することにより, 複雑な隠蔽シナリオのあいまいさを解消するアモーダルマスク精錬器を提案する。
BDD100K-APSとKITTI-360-APSデータセットの大規模な評価は、我々のアプローチが両方のベンチマークで新しい最先端を設定できたことを示している。
関連論文リスト
- N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - BLADE: Box-Level Supervised Amodal Segmentation through Directed
Expansion [10.57956193654977]
Boxレベルの教師付きアモーダルセグメンテーションは、この課題に対処する。
可視マスクから対応するアモーダルマスクへの指向性拡張アプローチを導入することで,新しい解を提案する。
このアプローチでは、オーバーラップする領域 – 異なるインスタンスが交わる領域 – に基づいた、ハイブリッドなエンドツーエンドネットワークが関係しています。
論文 参考訳(メタデータ) (2024-01-03T09:37:03Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Amodal Intra-class Instance Segmentation: Synthetic Datasets and
Benchmark [17.6780586288079]
本稿では、画像アモーダル完了タスクのための2つの新しいアモーダルデータセットを提案する。
また,アモーダル・インスタンス・セグメンテーションのための事前レイヤを持つ点教師付きスキームを提案する。
実験により、我々の弱教師付きアプローチはSOTAの完全教師付き手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-03-12T07:28:36Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーション (amodal panoptic segmentation) と呼ばれる新しいタスクを定式化し提案する。
このタスクの目的は、オブジェクトクラスの可視領域のピクセル単位の意味的セグメンテーションラベルを同時に予測することである。
本稿では,この課題に対処するための第一歩として,新しいアモーダル・パノプティクス・セグメンテーション・ネットワーク(APSNet)を提案する。
論文 参考訳(メタデータ) (2022-02-23T14:41:59Z) - Semantic Attention and Scale Complementary Network for Instance
Segmentation in Remote Sensing Images [54.08240004593062]
本稿では,セマンティックアテンション(SEA)モジュールとスケール補完マスクブランチ(SCMB)で構成される,エンドツーエンドのマルチカテゴリインスタンスセグメンテーションモデルを提案する。
SEAモジュールは、機能マップ上の興味あるインスタンスのアクティベーションを強化するために、追加の監督を備えた、単純な完全な畳み込みセマンティックセマンティックセマンティクスブランチを含んでいる。
SCMBは、元のシングルマスクブランチをトリデントマスクブランチに拡張し、異なるスケールで補完マスクの監視を導入する。
論文 参考訳(メタデータ) (2021-07-25T08:53:59Z) - The Devil is in the Boundary: Exploiting Boundary Representation for
Basis-based Instance Segmentation [85.153426159438]
本研究では,既存のグローバルマスクベースの手法を補完するグローバル境界表現を学習するために,Basisベースのインスタンス(B2Inst)を提案する。
私たちのB2Instは一貫した改善をもたらし、シーン内のインスタンス境界を正確に解析します。
論文 参考訳(メタデータ) (2020-11-26T11:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。