論文の概要: Amodal Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2202.11542v1
- Date: Wed, 23 Feb 2022 14:41:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 15:06:21.073993
- Title: Amodal Panoptic Segmentation
- Title(参考訳): Amodal Panoptic Segmentation
- Authors: Rohit Mohan, Abhinav Valada
- Abstract要約: アモーダル・パノプティクス・セグメンテーション (amodal panoptic segmentation) と呼ばれる新しいタスクを定式化し提案する。
このタスクの目的は、オブジェクトクラスの可視領域のピクセル単位の意味的セグメンテーションラベルを同時に予測することである。
本稿では,この課題に対処するための第一歩として,新しいアモーダル・パノプティクス・セグメンテーション・ネットワーク(APSNet)を提案する。
- 参考スコア(独自算出の注目度): 13.23676270963484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans have the remarkable ability to perceive objects as a whole, even when
parts of them are occluded. This ability of amodal perception forms the basis
of our perceptual and cognitive understanding of our world. To enable robots to
reason with this capability, we formulate and propose a novel task that we name
amodal panoptic segmentation. The goal of this task is to simultaneously
predict the pixel-wise semantic segmentation labels of the visible regions of
stuff classes and the instance segmentation labels of both the visible and
occluded regions of thing classes. To facilitate research on this new task, we
extend two established benchmark datasets with pixel-level amodal panoptic
segmentation labels that we make publicly available as KITTI-360-APS and
BDD100K-APS. We present several strong baselines, along with the amodal
panoptic quality (APQ) and amodal parsing coverage (APC) metrics to quantify
the performance in an interpretable manner. Furthermore, we propose the novel
amodal panoptic segmentation network (APSNet), as a first step towards
addressing this task by explicitly modeling the complex relationships between
the occluders and occludes. Extensive experimental evaluations demonstrate that
APSNet achieves state-of-the-art performance on both benchmarks and more
importantly exemplifies the utility of amodal recognition. The benchmarks are
available at http://amodal-panoptic.cs.uni-freiburg.de.
- Abstract(参考訳): 人間は、その一部が占有されている場合でも、全体として物体を知覚する顕著な能力を持っている。
この無様知覚の能力は、私たちの世界に対する知覚的および認知的理解の基礎を成す。
ロボットがこの能力に合理化できるようにするため、我々はamodal panoptic segmentationという新しいタスクを定式化し、提案する。
このタスクの目的は、物クラスの可視領域のピクセル単位の意味セグメンテーションラベルと、物クラスの可視領域と隠蔽領域の両方のインスタンスセグメンテーションラベルを同時に予測することである。
この新しいタスクの研究を容易にするため,KITTI-360-APSとBDD100K-APSとして公開している画素レベルのアモーダルパノプティックセグメンテーションラベルを用いた2つのベンチマークデータセットを拡張した。
amodal panoptic quality (apq) と amodal parse coverage (apc) の指標と共に、いくつかの強力なベースラインを示し、そのパフォーマンスを解釈可能な方法で定量化する。
さらに,この課題に対する第一歩として,occludersとoccludesの複雑な関係を明示的にモデル化し,apsnet(amodal panoptic segmentation network)を提案する。
APSNetは両ベンチマークで最先端のパフォーマンスを実現しており、さらに重要なことはアモーダル認識の有用性を実証している。
ベンチマークはhttp://amodal-panoptic.cs.uni-freiburg.deで利用可能である。
関連論文リスト
- SSPA: Split-and-Synthesize Prompting with Gated Alignments for Multi-Label Image Recognition [71.90536979421093]
本稿では,視覚言語モデル (VLM) の可能性を増幅するために, Gated Alignments (SSPA) フレームワークを用いた分割合成プロンプトを提案する。
我々は、LLMから固有の知識を関連付けるために、文脈内学習アプローチを開発する。
次に,SSP(Split-and-Synthesize Prompting)戦略を提案する。
論文 参考訳(メタデータ) (2024-07-30T15:58:25Z) - Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-07T13:06:34Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - Lidar Panoptic Segmentation and Tracking without Bells and Whistles [48.078270195629415]
ライダーセグメンテーションと追跡のための検出中心ネットワークを提案する。
私たちのネットワークのコアコンポーネントの1つは、オブジェクトインスタンス検出ブランチです。
提案手法を複数の3D/4D LPSベンチマークで評価し,我々のモデルがオープンソースモデル間で新たな最先端性を確立することを確認した。
論文 参考訳(メタデータ) (2023-10-19T04:44:43Z) - Panoptic Out-of-Distribution Segmentation [11.388678390784195]
連立画素レベルのセマンティック・イン・ディストリビューションとインスタンス予測を用いたアウト・オブ・ディストリビューション分類のためのパノプティカル・アウト・オブ・ディストリビューションを提案する。
データセット、コード、トレーニングされたモデルをhttp://pods.cs.uni-freiburg.deで公開しています。
論文 参考訳(メタデータ) (2023-10-18T08:38:31Z) - Few-Shot Panoptic Segmentation With Foundation Models [23.231014713335664]
約0ラベルのSegmenting Panoptic Information(SPINO)を提示することで、タスク非依存の画像特徴を活用して、少ショットのパノプティクスセグメンテーションを可能にすることを提案する。
本手法では,DINOv2のバックボーンと,セマンティックセグメンテーションと境界推定のための軽量なネットワークヘッドを組み合わせる。
提案手法は,10個の注釈付き画像のみを用いてトレーニングし,既存の汎視的セグメンテーション法で使用可能な高品質な擬似ラベルを予測する。
論文 参考訳(メタデータ) (2023-09-19T16:09:01Z) - Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
Retrieval [152.3504607706575]
本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
論文 参考訳(メタデータ) (2022-06-17T15:40:45Z) - Perceiving the Invisible: Proposal-Free Amodal Panoptic Segmentation [13.23676270963484]
アモーダル・パノプティクス・セグメンテーションは、世界の認識と認知的理解を結びつけることを目的としている。
我々は、このタスクをマルチラベルおよびマルチクラス問題として扱う、プロポーザルフリーフレームワークを定式化する。
共有バックボーンと非対称なデュアルデコーダを組み込んだネットアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-05-29T12:05:07Z) - Exemplar-Based Open-Set Panoptic Segmentation Network [79.99748041746592]
我々は、オープンワールドにパン光学セグメンテーションを拡張し、オープンセットのパン光学セグメンテーション(OPS)タスクを導入する。
本研究では,タスクの実践的課題を調査し,既存のデータセットであるCOCO上にベンチマークを構築する。
本稿では,エスペクティブ理論に着想を得た,エスペクティブ・ベース・オープン・セット・パノプティブ・セグメンテーション・ネットワーク(EOPSN)を提案する。
論文 参考訳(メタデータ) (2021-05-18T07:59:21Z) - MOPT: Multi-Object Panoptic Tracking [33.77171216778909]
マルチオブジェクト・パノプティブ・トラッキング(MOPT)と呼ばれる新しい知覚タスクを導入する。
MOPTは、時間とともに、"thing"クラスと"stuff"クラスのピクセルレベルのセマンティック情報、時間的コヒーレンス、ピクセルレベルの関連を活用できる。
視覚ベースとLiDARベースのMOPTの定量的,定性的な評価を行い,その効果を実証した。
論文 参考訳(メタデータ) (2020-04-17T11:45:28Z) - EfficientPS: Efficient Panoptic Segmentation [13.23676270963484]
セマンティックにリッチなマルチスケール機能を効率的にエンコードし、融合する効率的パノプティクス(Efficient Panoptic, EfficientPS)アーキテクチャを導入する。
セマンティックヘッドは、細部とコンテキストの特徴を整合的に集約し、インスタンスヘッドとしてMask R-CNNの新たな変種を組み込む。
また、一般的なKITTIベンチマークのためのパノビュータアノテーションを含むKITTIパノビュータセグメンテーションデータセットについても紹介する。
論文 参考訳(メタデータ) (2020-04-05T20:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。