論文の概要: PanDepth: Joint Panoptic Segmentation and Depth Completion
- arxiv url: http://arxiv.org/abs/2212.14180v2
- Date: Wed, 6 Mar 2024 12:42:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 18:29:30.686743
- Title: PanDepth: Joint Panoptic Segmentation and Depth Completion
- Title(参考訳): PanDepth:ジョイント・パノプティクス・セグメンテーションとディップス・コンプリーション
- Authors: Juan Lagos, Esa Rahtu
- Abstract要約: 本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。
本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。
- 参考スコア(独自算出の注目度): 19.642115764441016
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Understanding 3D environments semantically is pivotal in autonomous driving
applications where multiple computer vision tasks are involved. Multi-task
models provide different types of outputs for a given scene, yielding a more
holistic representation while keeping the computational cost low. We propose a
multi-task model for panoptic segmentation and depth completion using RGB
images and sparse depth maps. Our model successfully predicts fully dense depth
maps and performs semantic segmentation, instance segmentation, and panoptic
segmentation for every input frame. Extensive experiments were done on the
Virtual KITTI 2 dataset and we demonstrate that our model solves multiple
tasks, without a significant increase in computational cost, while keeping high
accuracy performance. Code is available at
https://github.com/juanb09111/PanDepth.git
- Abstract(参考訳): 3d環境をセマンティックに理解することは、複数のコンピュータビジョンタスクが関与する自動運転アプリケーションにおいて重要である。
マルチタスクモデルは与えられたシーンに対して異なるタイプの出力を提供し、計算コストを低く保ちながらより包括的な表現をもたらす。
本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。
本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。
仮想kitti 2データセット上で広範な実験を行い,高い精度を維持しつつ計算コストを大幅に増加させることなく,複数のタスクを解くことを実証した。
コードはhttps://github.com/juanb09111/PanDepth.gitで入手できる。
関連論文リスト
- View-Consistent Hierarchical 3D Segmentation Using Ultrametric Feature Fields [52.08335264414515]
我々は3次元シーンを表すニューラル・レージアンス・フィールド(NeRF)内の新しい特徴場を学習する。
本手法は、ビュー一貫性の多粒性2Dセグメンテーションを入力とし、3D一貫性のセグメンテーションの階層構造を出力として生成する。
提案手法と,多視点画像と多粒性セグメンテーションを用いた合成データセットのベースラインの評価を行い,精度と視点整合性を向上したことを示す。
論文 参考訳(メタデータ) (2024-05-30T04:14:58Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - SAM-guided Graph Cut for 3D Instance Segmentation [60.75119991853605]
本稿では,3次元画像情報と多視点画像情報の同時利用による3次元インスタンス分割の課題に対処する。
本稿では,3次元インスタンスセグメンテーションのための2次元セグメンテーションモデルを効果的に活用する新しい3D-to-2Dクエリフレームワークを提案する。
本手法は,ロバストなセグメンテーション性能を実現し,異なるタイプのシーンにまたがる一般化を実現する。
論文 参考訳(メタデータ) (2023-12-13T18:59:58Z) - Joint Depth Prediction and Semantic Segmentation with Multi-View SAM [59.99496827912684]
我々は,Segment Anything Model(SAM)のリッチなセマンティック特徴を利用した深度予測のためのマルチビューステレオ(MVS)手法を提案する。
この拡張深度予測は、Transformerベースのセマンティックセグメンテーションデコーダのプロンプトとして役立ちます。
論文 参考訳(メタデータ) (2023-10-31T20:15:40Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - SemSegDepth: A Combined Model for Semantic Segmentation and Depth
Completion [18.19171031755595]
セマンティックセグメンテーションと深度補完を共同で行うための新しいエンド・ツー・エンドモデルを提案する。
提案手法はモデルへの入力としてRGBとスパース深度に依存し,深度マップとそれに対応するセマンティックセグメンテーション画像を生成する。
Virtual KITTI 2データセットで実施された実験は、セマンティックセグメンテーションとディープコンプリートの両方のタスクをマルチタスクネットワークで組み合わせることで、各タスクのパフォーマンスを効果的に改善できるという、さらなるエビデンスを実証し、提供する。
論文 参考訳(メタデータ) (2022-09-01T11:52:11Z) - Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments [13.274695420192884]
RGB-Dシーン解析(EMSANet)のための効率的なマルチタスク手法を提案する。
パフォーマンスを低下させることなく、モバイルプラットフォーム上で1つのニューラルネットワークを使用して、すべてのタスクをリアルタイムで達成できることを示します。
我々は,NYUv2 と SUNRGB-D の屋内シーン解析のための総合的なマルチタスク設定の結果を初めて提示する。
論文 参考訳(メタデータ) (2022-07-10T20:03:38Z) - S3CNet: A Sparse Semantic Scene Completion Network for LiDAR Point
Clouds [0.16799377888527683]
S3CNetはスパース畳み込みに基づくニューラルネットワークで、単一で統一されたLiDARポイントクラウドからセマンティックに完了したシーンを予測する。
提案手法は,Semantic KITTI ベンチマークを用いて,3次元課題における全ての課題に対して優れることを示す。
論文 参考訳(メタデータ) (2020-12-16T20:14:41Z) - Depth Based Semantic Scene Completion with Position Importance Aware
Loss [52.06051681324545]
PALNetはセマンティックシーン補完のための新しいハイブリッドネットワークである。
詳細な深度情報を用いて,多段階から2次元特徴と3次元特徴の両方を抽出する。
オブジェクトのバウンダリやシーンの隅といった重要な詳細を復元することは有益である。
論文 参考訳(メタデータ) (2020-01-29T07:05:52Z) - Evolution of Image Segmentation using Deep Convolutional Neural Network:
A Survey [0.0]
我々はCNNに基づくセマンティックとインスタンスセグメンテーションの両方の進化を垣間見る。
我々は、最先端のパン光学セグメンテーションモデルを垣間見せた。
論文 参考訳(メタデータ) (2020-01-13T06:07:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。