論文の概要: MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation
- arxiv url: http://arxiv.org/abs/2210.07577v1
- Date: Fri, 14 Oct 2022 07:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 16:51:03.455024
- Title: MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation
- Title(参考訳): MonoDVPS:depth-aware Video Panoptic Segmentationのための自己監督型単眼深度推定手法
- Authors: Andra Petrovai and Sergiu Nedevschi
- Abstract要約: 単眼深度推定とビデオパノプティックセグメンテーションを行うマルチタスクネットワークを用いた新しいソリューションを提案する。
トレーニング信号の劣化を回避するため,物体を移動させるための新しいパノプティカルマスキング方式と,パノプティカル誘導による奥行き損失を導入した。
- 参考スコア(独自算出の注目度): 3.2489082010225494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth-aware video panoptic segmentation tackles the inverse projection
problem of restoring panoptic 3D point clouds from video sequences, where the
3D points are augmented with semantic classes and temporally consistent
instance identifiers. We propose a novel solution with a multi-task network
that performs monocular depth estimation and video panoptic segmentation. Since
acquiring ground truth labels for both depth and image segmentation has a
relatively large cost, we leverage the power of unlabeled video sequences with
self-supervised monocular depth estimation and semi-supervised learning from
pseudo-labels for video panoptic segmentation. To further improve the depth
prediction, we introduce panoptic-guided depth losses and a novel panoptic
masking scheme for moving objects to avoid corrupting the training signal.
Extensive experiments on the Cityscapes-DVPS and SemKITTI-DVPS datasets
demonstrate that our model with the proposed improvements achieves competitive
results and fast inference speed.
- Abstract(参考訳): 深度対応ビデオパノプティックセグメンテーションは、3Dポイントをセマンティッククラスと時間的に一貫したインスタンス識別子で拡張するビデオシーケンスからパノプティック3Dポイントクラウドを復元する逆投影問題に取り組む。
本稿では,単眼深度推定とビデオパニックセグメンテーションを行うマルチタスクネットワークを用いた新しい解を提案する。
深度と画像のセグメンテーションの両方に対する基底的真理ラベルの取得は、比較的コストがかかるため、自己教師あり単眼深度推定と擬似教師付き学習によるラベルなし映像列のパワーをビデオパオプティックセグメンテーションに活用する。
深度予測をさらに改善するため、トレーニング信号の破損を回避するために、パン光学誘導深度損失と、物体を動かすための新しいパン光学マスキング方式を導入する。
Cityscapes-DVPSとSemKITTI-DVPSデータセットの大規模な実験により、提案した改善による我々のモデルが、競争結果と高速な推論速度を達成することを示した。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - A Simple Baseline for Supervised Surround-view Depth Estimation [25.81521612343612]
本稿では,S3Depthを提案する。
我々はCNNとトランスフォーマー層を組み合わせたグローバル・ローカルな特徴抽出モジュールを用いて表現を豊かにする。
本手法は,既存のDDADおよびnuScenesデータセット上での最先端手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T10:06:19Z) - SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation [41.85216306978024]
深度認識型パノプティックセグメンテーション(DPS)のための統合フレームワークを提案する。
インスタンス固有のカーネルを生成し、各インスタンスの深さとセグメンテーションマスクを予測する。
我々は,新たな深度損失による深度学習の監視を支援するために,インスタンスレベルの深度手がかりを追加する。
論文 参考訳(メタデータ) (2022-06-01T13:00:49Z) - PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic
Segmentation [90.26723865198348]
DVPSタスクで全てのサブタスクを統一する視覚変換器であるPolyphonicFormerを提案する。
提案手法は,問合せ学習による深度推定とパノプティックセグメンテーションの関係について検討する。
ICCV-2021 BMTT Challenge video + depth trackで1位にランクインした。
論文 参考訳(メタデータ) (2021-12-05T14:31:47Z) - Consistent Depth of Moving Objects in Video [52.72092264848864]
移動カメラで撮影した通常の映像から任意の移動物体を含む動的シーンの深さを推定する手法を提案する。
我々は、この目的を、深度予測CNNを入力ビデオ全体にわたって補助的なシーンフロー予測でタンデムで訓練する新しいテストタイムトレーニングフレームワークで定式化する。
我々は、さまざまな移動物体(ペット、人、車)とカメラの動きを含む様々な挑戦的なビデオに対して、正確かつ時間的に一貫性のある結果を示す。
論文 参考訳(メタデータ) (2021-08-02T20:53:18Z) - Unsupervised Monocular Depth Reconstruction of Non-Rigid Scenes [87.91841050957714]
本稿では,ダイナミックシーンの深度推定のための非監視単眼フレームワークを提案する。
再構成した3次元点間の対数距離を日和見的に保存することを目的とした訓練目標を導出する。
提案手法は,非剛性シーンの挑戦的な映像から3Dを再構成する能力を実証し,有望な結果を提供する。
論文 参考訳(メタデータ) (2020-12-31T16:02:03Z) - ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic
Segmentation [31.078913193966585]
ViP-DeepLabは、ビジョンの長期的かつ挑戦的な逆投影問題に取り組む統一モデルです。
ViP-DeepLabは、単眼深度推定とビデオパノプティクスのセグメンテーションを共同で行うことでアプローチする。
個々のサブタスクでは、ViP-DeepLabは最先端の結果を達成し、Cityscapes-VPSで5.1%のVPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位を上回ります。
論文 参考訳(メタデータ) (2020-12-09T19:00:35Z) - Self-Attention Dense Depth Estimation Network for Unrectified Video
Sequences [6.821598757786515]
LiDARとレーダーセンサーはリアルタイム深度推定のためのハードウェアソリューションである。
深層学習に基づく自己教師付き深度推定法は有望な結果を示した。
未修正画像に対する自己注意に基づく深度・自我移動ネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-28T21:53:53Z) - Improving Semantic Segmentation through Spatio-Temporal Consistency
Learned from Videos [39.25927216187176]
我々は、深度、エゴモーション、カメラの内在性に関する教師なし学習を活用して、単一画像のセマンティックセマンティックセグメンテーションを改善する。
セグメンテーションモデルにさらなる監視信号を与えるために、予測深度、エゴモーション、カメラ内在性を用いている。
論文 参考訳(メタデータ) (2020-04-11T07:09:29Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。