論文の概要: PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2206.00468v1
- Date: Wed, 1 Jun 2022 13:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 12:15:54.615277
- Title: PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation
- Title(参考訳): PanopticDepth: 深度対応のPanoptic Segmentationのための統一フレームワーク
- Authors: Naiyu Gao, Fei He, Jian Jia, Yanhu Shan, Haoyang Zhang, Xin Zhao,
Kaiqi Huang
- Abstract要約: 深度認識型パノプティックセグメンテーション(DPS)のための統合フレームワークを提案する。
インスタンス固有のカーネルを生成し、各インスタンスの深さとセグメンテーションマスクを予測する。
我々は,新たな深度損失による深度学習の監視を支援するために,インスタンスレベルの深度手がかりを追加する。
- 参考スコア(独自算出の注目度): 41.85216306978024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a unified framework for depth-aware panoptic segmentation
(DPS), which aims to reconstruct 3D scene with instance-level semantics from
one single image. Prior works address this problem by simply adding a dense
depth regression head to panoptic segmentation (PS) networks, resulting in two
independent task branches. This neglects the mutually-beneficial relations
between these two tasks, thus failing to exploit handy instance-level semantic
cues to boost depth accuracy while also producing sub-optimal depth maps. To
overcome these limitations, we propose a unified framework for the DPS task by
applying a dynamic convolution technique to both the PS and depth prediction
tasks. Specifically, instead of predicting depth for all pixels at a time, we
generate instance-specific kernels to predict depth and segmentation masks for
each instance. Moreover, leveraging the instance-wise depth estimation scheme,
we add additional instance-level depth cues to assist with supervising the
depth learning via a new depth loss. Extensive experiments on Cityscapes-DPS
and SemKITTI-DPS show the effectiveness and promise of our method. We hope our
unified solution to DPS can lead a new paradigm in this area. Code is available
at https://github.com/NaiyuGao/PanopticDepth.
- Abstract(参考訳): 本稿では,1つの画像からインスタンスレベルのセマンティクスを用いて3次元シーンを再構成することを目的とした,深度認識型パノプティックセマンティクス(DPS)の統一フレームワークを提案する。
先行研究では、高密度深度回帰ヘッドを単視セグメンテーション(PS)ネットワークに追加するだけでこの問題に対処し、2つの独立したタスク分岐をもたらす。
これにより、これらの2つのタスク間の相互に便益的な関係は無視されるため、インスタンスレベルのセマンティックキューをうまく利用せず、深さの精度を高めながら、準最適深度マップを生成する。
これらの制約を克服するために,PSタスクと深度予測タスクの両方に動的畳み込み手法を適用し,DPSタスクの統一フレームワークを提案する。
具体的には、一度にすべてのピクセルの深さを予測する代わりに、各インスタンスの深さとセグメンテーションマスクを予測するインスタンス固有のカーネルを生成します。
さらに,インスタンス単位の深度推定手法を利用して,新たな深度損失による深度学習の監視を支援する。
Cityscapes-DPS と SemKITTI-DPS の大規模な実験により,本手法の有効性と将来性を示した。
DPSの統一ソリューションがこの分野で新たなパラダイムを導いてくれることを願っています。
コードはhttps://github.com/NaiyuGao/PanopticDepth.comで入手できる。
関連論文リスト
- GAM-Depth: Self-Supervised Indoor Depth Estimation Leveraging a
Gradient-Aware Mask and Semantic Constraints [12.426365333096264]
本稿では,勾配認識マスクと意味制約という,2つの新しいコンポーネントをベースとしたGAM-Depthを提案する。
グラデーション対応マスクは、キー領域とテクスチャレス領域の両方の適応的かつ堅牢な監視を可能にする。
室内における自己監督深度推定のセマンティック制約の導入は、物体の境界における深度差を改善する。
論文 参考訳(メタデータ) (2024-02-22T07:53:34Z) - Towards Deeply Unified Depth-aware Panoptic Segmentation with
Bi-directional Guidance Learning [63.63516124646916]
深度認識型パノプティックセグメンテーションのためのフレームワークを提案する。
本稿では,クロスタスク機能学習を容易にする双方向指導学習手法を提案する。
本手法は,Cityscapes-DVPS と SemKITTI-DVPS の両データセットを用いた深度認識型パノプティックセグメンテーションのための新しい手法である。
論文 参考訳(メタデータ) (2023-07-27T11:28:33Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - SemSegDepth: A Combined Model for Semantic Segmentation and Depth
Completion [18.19171031755595]
セマンティックセグメンテーションと深度補完を共同で行うための新しいエンド・ツー・エンドモデルを提案する。
提案手法はモデルへの入力としてRGBとスパース深度に依存し,深度マップとそれに対応するセマンティックセグメンテーション画像を生成する。
Virtual KITTI 2データセットで実施された実験は、セマンティックセグメンテーションとディープコンプリートの両方のタスクをマルチタスクネットワークで組み合わせることで、各タスクのパフォーマンスを効果的に改善できるという、さらなるエビデンスを実証し、提供する。
論文 参考訳(メタデータ) (2022-09-01T11:52:11Z) - PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic
Segmentation [90.26723865198348]
DVPSタスクで全てのサブタスクを統一する視覚変換器であるPolyphonicFormerを提案する。
提案手法は,問合せ学習による深度推定とパノプティックセグメンテーションの関係について検討する。
ICCV-2021 BMTT Challenge video + depth trackで1位にランクインした。
論文 参考訳(メタデータ) (2021-12-05T14:31:47Z) - Domain Adaptive Semantic Segmentation with Self-Supervised Depth
Estimation [84.34227665232281]
セマンティックセグメンテーションのためのドメイン適応は、ソースとターゲットドメイン間の分散シフトの存在下でモデルのパフォーマンスを向上させることを目的とする。
ドメイン間のギャップを埋めるために、両ドメインで利用可能な自己教師付き深さ推定からのガイダンスを活用します。
提案手法のベンチマークタスクSYNTHIA-to-CityscapesとGTA-to-Cityscapesの有効性を実証する。
論文 参考訳(メタデータ) (2021-04-28T07:47:36Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic
Segmentation [31.078913193966585]
ViP-DeepLabは、ビジョンの長期的かつ挑戦的な逆投影問題に取り組む統一モデルです。
ViP-DeepLabは、単眼深度推定とビデオパノプティクスのセグメンテーションを共同で行うことでアプローチする。
個々のサブタスクでは、ViP-DeepLabは最先端の結果を達成し、Cityscapes-VPSで5.1%のVPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位を上回ります。
論文 参考訳(メタデータ) (2020-12-09T19:00:35Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z) - Guiding Monocular Depth Estimation Using Depth-Attention Volume [38.92495189498365]
本研究では,特に屋内環境に広く分布する平面構造を優先するための奥行き推定法を提案する。
2つのポピュラーな屋内データセットであるNYU-Depth-v2とScanNetの実験により,本手法が最先端の深度推定結果を実現することを示す。
論文 参考訳(メタデータ) (2020-04-06T15:45:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。