論文の概要: MGNet: Monocular Geometric Scene Understanding for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2206.13199v1
- Date: Mon, 27 Jun 2022 11:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 15:07:09.158634
- Title: MGNet: Monocular Geometric Scene Understanding for Autonomous Driving
- Title(参考訳): MGNet:自律運転のための単眼の幾何学的シーン理解
- Authors: Markus Sch\"on, Michael Buchholz, Klaus Dietmayer
- Abstract要約: MGNetはモノクロ幾何学的シーン理解のためのマルチタスクフレームワークである。
我々は、単眼の幾何学的シーン理解を、パノプティカルセグメンテーションと自己教師付き単眼深度推定という2つの既知のタスクの組み合わせとして定義する。
我々のモデルは、単一のコンシューマグレードのGPU上で、リアルタイムに高速な推論を提供するために、低レイテンシにフォーカスして設計されている。
- 参考スコア(独自算出の注目度): 10.438741209852209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MGNet, a multi-task framework for monocular geometric scene
understanding. We define monocular geometric scene understanding as the
combination of two known tasks: Panoptic segmentation and self-supervised
monocular depth estimation. Panoptic segmentation captures the full scene not
only semantically, but also on an instance basis. Self-supervised monocular
depth estimation uses geometric constraints derived from the camera measurement
model in order to measure depth from monocular video sequences only. To the
best of our knowledge, we are the first to propose the combination of these two
tasks in one single model. Our model is designed with focus on low latency to
provide fast inference in real-time on a single consumer-grade GPU. During
deployment, our model produces dense 3D point clouds with instance aware
semantic labels from single high-resolution camera images. We evaluate our
model on two popular autonomous driving benchmarks, i.e., Cityscapes and KITTI,
and show competitive performance among other real-time capable methods. Source
code is available at https://github.com/markusschoen/MGNet.
- Abstract(参考訳): モノクロ幾何学的シーン理解のためのマルチタスクフレームワークmgnetを紹介する。
我々は、単眼の幾何学的シーン理解を、2つの既知のタスクの組合せとして定義する。
panopticのセグメンテーションは、意味的にだけでなく、インスタンスベースでも全シーンをキャプチャする。
自己教師付き単眼深度推定は、単眼映像列のみから深度を測定するためにカメラ計測モデルから導かれた幾何学的制約を用いる。
私たちの知る限りでは、この2つのタスクを1つのモデルで組み合わせることを最初に提案しました。
我々のモデルは、単一のコンシューマグレードGPU上でリアルタイムに高速な推論を提供するために、低レイテンシにフォーカスして設計されている。
展開中、我々のモデルは高解像度カメラ画像から高密度の3次元点雲を生成する。
我々は,Cityscapes と KITTI という2つの一般的な自律走行ベンチマークでモデルを評価し,他のリアルタイム能力のある方法と競合する性能を示す。
ソースコードはhttps://github.com/markusschoen/MGNetで入手できる。
関連論文リスト
- DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features [65.8738034806085]
DistillNeRFは、自動運転シーンにおける3D環境を理解するための自己教師型学習フレームワークである。
本手法は,スパースで単一フレームのマルチビューカメラ入力からリッチなニューラルシーン表現を予測する一般化可能なフィードフォワードモデルである。
論文 参考訳(メタデータ) (2024-06-17T21:15:13Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - AutoLay: Benchmarking amodal layout estimation for autonomous driving [18.152206533685412]
AutoLayはモノクロ画像からアモーダルレイアウトを推定するためのデータセットとベンチマークである。
また,車線,歩道,車両などの微粒な属性に加えて,意味的に注釈付けされた3次元点雲も提供する。
論文 参考訳(メタデータ) (2021-08-20T08:21:11Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - SynDistNet: Self-Supervised Monocular Fisheye Camera Distance Estimation
Synergized with Semantic Segmentation for Autonomous Driving [37.50089104051591]
モノクル深度推定のための最先端の自己教師型学習アプローチは、通常、スケールの曖昧さに悩まされる。
本稿では,魚眼カメラ画像とピンホールカメラ画像の自己教師付き単眼距離推定を改善するための,新しいマルチタスク学習手法を提案する。
論文 参考訳(メタデータ) (2020-08-10T10:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。