論文の概要: ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic
Segmentation
- arxiv url: http://arxiv.org/abs/2012.05258v1
- Date: Wed, 9 Dec 2020 19:00:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 01:59:55.535399
- Title: ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic
Segmentation
- Title(参考訳): ViP-DeepLab:depth-aware Video Panoptic Segmentationによる視覚知覚学習
- Authors: Siyuan Qiao, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen
- Abstract要約: ViP-DeepLabは、ビジョンの長期的かつ挑戦的な逆投影問題に取り組む統一モデルです。
ViP-DeepLabは、単眼深度推定とビデオパノプティクスのセグメンテーションを共同で行うことでアプローチする。
個々のサブタスクでは、ViP-DeepLabは最先端の結果を達成し、Cityscapes-VPSで5.1%のVPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位を上回ります。
- 参考スコア(独自算出の注目度): 31.078913193966585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present ViP-DeepLab, a unified model attempting to tackle
the long-standing and challenging inverse projection problem in vision, which
we model as restoring the point clouds from perspective image sequences while
providing each point with instance-level semantic interpretations. Solving this
problem requires the vision models to predict the spatial location, semantic
class, and temporally consistent instance label for each 3D point. ViP-DeepLab
approaches it by jointly performing monocular depth estimation and video
panoptic segmentation. We name this joint task as Depth-aware Video Panoptic
Segmentation, and propose a new evaluation metric along with two derived
datasets for it, which will be made available to the public. On the individual
sub-tasks, ViP-DeepLab also achieves state-of-the-art results, outperforming
previous methods by 5.1% VPQ on Cityscapes-VPS, ranking 1st on the KITTI
monocular depth estimation benchmark, and 1st on KITTI MOTS pedestrian. The
datasets and the evaluation codes are made publicly available.
- Abstract(参考訳): 本稿では,視覚における長期的かつ難解な逆投影問題に取り組むための統一モデルであるvip-deeplabを提案する。
この問題を解決するには、3dポイントごとに空間的位置、意味クラス、時間的一貫性のあるインスタンスラベルを予測するビジョンモデルが必要である。
ViP-DeepLabはモノクロ深度推定とビデオパノプティックセグメンテーションを共同で行う。
我々はこの共同タスクをDepth-aware Video Panoptic Segmentationと名付け,2つの派生したデータセットとともに新たな評価基準を提案する。
個別のサブタスクでは、ViP-DeepLabは最先端の結果も達成し、Cityscapes-VPSで5.1%VPQ、KITTI単眼深度推定ベンチマークで1位、KITTI MOTS歩行者で1位という過去の手法を上回った。
データセットと評価コードは公開されています。
関連論文リスト
- SC-DepthV3: Robust Self-supervised Monocular Depth Estimation for
Dynamic Scenes [58.89295356901823]
自己監督型単眼深度推定は静的な場面で顕著な結果を示した。
トレーニングネットワークのマルチビュー整合性の仮定に依存するが、動的オブジェクト領域に違反する。
単一画像の深度を事前に生成するための,外部トレーニング付き単眼深度推定モデルを提案する。
我々のモデルは、高度にダイナミックなシーンのモノクロビデオからトレーニングしても、シャープで正確な深度マップを予測できる。
論文 参考訳(メタデータ) (2022-11-07T16:17:47Z) - MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation [3.2489082010225494]
単眼深度推定とビデオパノプティックセグメンテーションを行うマルチタスクネットワークを用いた新しいソリューションを提案する。
トレーニング信号の劣化を回避するため,物体を移動させるための新しいパノプティカルマスキング方式と,パノプティカル誘導による奥行き損失を導入した。
論文 参考訳(メタデータ) (2022-10-14T07:00:42Z) - PanopticDepth: A Unified Framework for Depth-aware Panoptic Segmentation [41.85216306978024]
深度認識型パノプティックセグメンテーション(DPS)のための統合フレームワークを提案する。
インスタンス固有のカーネルを生成し、各インスタンスの深さとセグメンテーションマスクを予測する。
我々は,新たな深度損失による深度学習の監視を支援するために,インスタンスレベルの深度手がかりを追加する。
論文 参考訳(メタデータ) (2022-06-01T13:00:49Z) - PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic
Segmentation [90.26723865198348]
DVPSタスクで全てのサブタスクを統一する視覚変換器であるPolyphonicFormerを提案する。
提案手法は,問合せ学習による深度推定とパノプティックセグメンテーションの関係について検討する。
ICCV-2021 BMTT Challenge video + depth trackで1位にランクインした。
論文 参考訳(メタデータ) (2021-12-05T14:31:47Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Monocular 3D Object Detection with Sequential Feature Association and
Depth Hint Augmentation [12.55603878441083]
FADNetは、モノクル3Dオブジェクト検出の課題に対処するために提示される。
専用のディープヒントモジュールは、ディープヒントと呼ばれる行ワイズ機能を生成するように設計されている。
この研究の貢献は、KITTIベンチマークの実験およびアブレーション研究によって検証される。
論文 参考訳(メタデータ) (2020-11-30T07:19:14Z) - Video Panoptic Segmentation [117.08520543864054]
我々は,ビデオパノプティクスセグメンテーションと呼ばれる,このタスクの新たな拡張手法を提案し,検討する。
この新しいタスクの研究を活性化するために,2種類のビデオパノプティクスデータセットを提示する。
本稿では,ビデオフレーム内のオブジェクトクラス,バウンディングボックス,マスク,インスタンスID追跡,セマンティックセマンティックセマンティックセマンティックセマンティクスを共同で予測する新しいビデオパノプティックセマンティクスネットワーク(VPSNet)を提案する。
論文 参考訳(メタデータ) (2020-06-19T19:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。