論文の概要: Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View
- arxiv url: http://arxiv.org/abs/2307.04106v2
- Date: Tue, 11 Jul 2023 23:55:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 10:32:06.662875
- Title: Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View
- Title(参考訳): 鳥眼視における物体検出とセグメンテーションのためのパラメトリック奥行きに基づく特徴表現学習
- Authors: Jiayu Yang, Enze Xie, Miaomiao Liu, Jose M. Alvarez
- Abstract要約: 本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
- 参考スコア(独自算出の注目度): 44.78243406441798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision-only perception models for autonomous driving achieved
promising results by encoding multi-view image features into Bird's-Eye-View
(BEV) space. A critical step and the main bottleneck of these methods is
transforming image features into the BEV coordinate frame. This paper focuses
on leveraging geometry information, such as depth, to model such feature
transformation. Existing works rely on non-parametric depth distribution
modeling leading to significant memory consumption, or ignore the geometry
information to address this problem. In contrast, we propose to use parametric
depth distribution modeling for feature transformation. We first lift the 2D
image features to the 3D space defined for the ego vehicle via a predicted
parametric depth distribution for each pixel in each view. Then, we aggregate
the 3D feature volume based on the 3D space occupancy derived from depth to the
BEV frame. Finally, we use the transformed features for downstream tasks such
as object detection and semantic segmentation. Existing semantic segmentation
methods do also suffer from an hallucination problem as they do not take
visibility information into account. This hallucination can be particularly
problematic for subsequent modules such as control and planning. To mitigate
the issue, our method provides depth uncertainty and reliable visibility-aware
estimations. We further leverage our parametric depth modeling to present a
novel visibility-aware evaluation metric that, when taken into account, can
mitigate the hallucination problem. Extensive experiments on object detection
and semantic segmentation on the nuScenes datasets demonstrate that our method
outperforms existing methods on both tasks.
- Abstract(参考訳): 近年の自律走行のための視覚のみの知覚モデルは、多視点画像特徴をバードアイビュー(BEV)空間に符号化することで有望な結果を得た。
これらの手法の主なボトルネックは、画像特徴をBEV座標フレームに変換することである。
本稿では,そのような特徴変換をモデル化するために,深度などの幾何学情報を活用することに焦点を当てる。
既存の研究は、メモリ消費に繋がる非パラメトリックな深さ分布モデリングや、この問題に対処する幾何情報を無視している。
対照的に、特徴変換にパラメトリック深度分布モデルを用いることを提案する。
まず2次元画像の特徴をego車両で定義された3次元空間に持ち上げ,各ビューにおける各画素のパラメトリック深度分布を予測した。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴量を集約する。
最後に、オブジェクト検出やセマンティクスセグメンテーションといった下流タスクに変換された機能を使用します。
既存のセマンティックセグメンテーション手法は、視覚的な情報を考慮に入れないため、幻覚的な問題にも悩まされる。
この幻覚は、制御や計画といった後続のモジュールでは特に問題となる。
この問題を軽減するため,本手法は深度不確実性と信頼性の高い可視性評価を行う。
我々はさらにパラメトリック深度モデルを用いて、幻覚の問題を緩和できる新しい可視性を考慮した評価指標を提案する。
nuscenesデータセットにおけるオブジェクト検出とセマンティクスセグメンテーションに関する広範な実験により,提案手法が両タスクにおいて既存の手法よりも優れていることが証明された。
関連論文リスト
- Divide and Conquer: Improving Multi-Camera 3D Perception with 2D Semantic-Depth Priors and Input-Dependent Queries [30.17281824826716]
既存の手法は、しばしば意味と深さの手がかりの相乗効果を無視し、分類と位置推定誤差をもたらす。
本稿では,SemanticsとDepthを先行として活用した入力対応トランスフォーマーフレームワークを提案する。
我々のアプローチは、意味と深さの事前を明示的にモデル化するS-Dを用いることで、オブジェクトの分類と位置推定の学習プロセスを阻害する。
論文 参考訳(メタデータ) (2024-08-13T13:51:34Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Semantic Validation in Structure from Motion [0.0]
Structure from Motion (SfM) は、一連の投影計測からシーンの3次元構造を復元する過程である。
SfMは、特徴検出とマッチング、カメラモーション推定、および3D構造の回復の3つの主要なステップから構成される。
このプロジェクトは3次元SfMモデルの検証を改善するための新しい方法を提供する。
論文 参考訳(メタデータ) (2023-04-05T12:58:59Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Aug3D-RPN: Improving Monocular 3D Object Detection by Synthetic Images
with Virtual Depth [64.29043589521308]
仮想深度で画像を合成することでトレーニングデータを増強するレンダリングモジュールを提案する。
レンダリングモジュールは、RGB画像と対応するスパース深度画像とを入力として、さまざまなフォトリアリスティック合成画像を出力する。
さらに,深度推定タスクを通じて共同で最適化することで,検出モデルを改善する補助モジュールを導入する。
論文 参考訳(メタデータ) (2021-07-28T11:00:47Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。