論文の概要: Depth3DLane: Fusing Monocular 3D Lane Detection with Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2507.13857v1
- Date: Fri, 18 Jul 2025 12:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-21 20:43:26.277639
- Title: Depth3DLane: Fusing Monocular 3D Lane Detection with Self-Supervised Monocular Depth Estimation
- Title(参考訳): Depth3DLane:自己監督型単眼深度推定による単眼3D線検出
- Authors: Max van den Hoven, Kishaan Jeeveswaran, Pieter Piscaer, Thijs Wensveen, Elahe Arani, Bahram Zonooz,
- Abstract要約: マルチモーダルアプローチは高価な深度センサーに依存し、完全に教師された深度ネットワークは大規模な収集が不可能な地上の深度データに依存している。
Depth3DLaneは、自己教師付き単眼深度推定を統合した新しいデュアルパスウェイフレームワークである。
Depth3DLaneはOpenLaneベンチマークデータセット上で競合性能を発揮することを示す。
- 参考スコア(独自算出の注目度): 15.904739731978236
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Monocular 3D lane detection is essential for autonomous driving, but challenging due to the inherent lack of explicit spatial information. Multi-modal approaches rely on expensive depth sensors, while methods incorporating fully-supervised depth networks rely on ground-truth depth data that is impractical to collect at scale. Additionally, existing methods assume that camera parameters are available, limiting their applicability in scenarios like crowdsourced high-definition (HD) lane mapping. To address these limitations, we propose Depth3DLane, a novel dual-pathway framework that integrates self-supervised monocular depth estimation to provide explicit structural information, without the need for expensive sensors or additional ground-truth depth data. Leveraging a self-supervised depth network to obtain a point cloud representation of the scene, our bird's-eye view pathway extracts explicit spatial information, while our front view pathway simultaneously extracts rich semantic information. Depth3DLane then uses 3D lane anchors to sample features from both pathways and infer accurate 3D lane geometry. Furthermore, we extend the framework to predict camera parameters on a per-frame basis and introduce a theoretically motivated fitting procedure to enhance stability on a per-segment basis. Extensive experiments demonstrate that Depth3DLane achieves competitive performance on the OpenLane benchmark dataset. Furthermore, experimental results show that using learned parameters instead of ground-truth parameters allows Depth3DLane to be applied in scenarios where camera calibration is infeasible, unlike previous methods.
- Abstract(参考訳): 自律走行には単眼の3次元車線検出が不可欠であるが、空間情報の明示的な欠如により困難である。
マルチモーダルアプローチは高価な深度センサーに依存し、完全教師付き深度ネットワークを組み込んだ手法は大規模に収集できない地中深度データに依存している。
さらに、既存の手法では、カメラパラメータが利用可能であると仮定し、クラウドソースのHD(High-Definition)レーンマッピングのようなシナリオに適用性を制限する。
これらの制約に対処するため,Depth3DLaneを提案する。Depth3DLaneは自己教師付き単眼深度推定を統合して,高価なセンサや地上深度データを必要としない明示的な構造情報を提供する,新しいデュアルパスウェイフレームワークである。
自監督深度ネットワークを用いてシーンの点雲表現を行い, 鳥眼視経路は空間情報を抽出し, 正面視経路は豊かな意味情報を同時に抽出する。
深さ3DLaneは3Dレーンアンカーを使用して両方の経路から特徴を抽出し、正確な3Dレーン形状を推定する。
さらに,フレームワークを拡張して,フレーム単位のカメラパラメータを予測し,理論的に動機づけられたフィッティング手順を導入し,セグメント単位の安定性を向上する。
大規模な実験では、Depth3DLaneがOpenLaneベンチマークデータセット上で競合するパフォーマンスを達成している。
さらに,Depth3DLaneは,従来の手法とは異なり,カメラキャリブレーションが不可能なシナリオに適用可能であることを示す実験結果を得た。
関連論文リスト
- Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation [5.909083729156255]
限界に対処し、3次元車線検出精度を向上させるためのBEVベースのフレームワークを提案する。
教師モデルから意味深度知識を伝達するために,Depth Prior Distillationを活用する。
本手法は,z軸誤差による最先端性能を実現する。
論文 参考訳(メタデータ) (2025-04-25T13:08:41Z) - Revisiting Monocular 3D Object Detection with Depth Thickness Field [44.4805861813093]
モノクロ3次元物体検出のためのシーン・ツー・インスタンス深度適応ネットワークであるMonoDTFを提案する。
このフレームワークは主にSDR(Scene-Level Depth Retargeting)モジュールとISR(Instance-Level Spatial Refinement)モジュールで構成される。
後者は、インスタンスの誘導によりボクセル空間を洗練し、深さ厚さ場の3Dインスタンス認識能力を向上する。
論文 参考訳(メタデータ) (2024-12-26T10:51:50Z) - Lift-Attend-Splat: Bird's-eye-view camera-lidar fusion using transformers [39.14931758754381]
単分子深度推定を完全に回避する新しい融合法を提案する。
本モデルでは,ライダー機能の利用率に基づいて,カメラ機能の利用を調節できることが示されている。
論文 参考訳(メタデータ) (2023-12-22T18:51:50Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - CrossDTR: Cross-view and Depth-guided Transformers for 3D Object
Detection [10.696619570924778]
そこで我々は,3次元物体検出のためのクロスビューおよび奥行き誘導変換器を提案する。
歩行者検出では既存のマルチカメラ手法を10%上回り,mAPとNDSの指標では約3%を上回りました。
論文 参考訳(メタデータ) (2022-09-27T16:23:12Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - MonoDETR: Depth-guided Transformer for Monocular 3D Object Detection [57.969536140562674]
深度誘導型TRansformer(MonoDETR)を用いたモノクロ検出のための最初のDETRフレームワークについて紹介する。
我々は3Dオブジェクト候補を学習可能なクエリとして定式化し、オブジェクトとシーンの深度相互作用を行うための深度誘導デコーダを提案する。
モノクルイメージを入力としてKITTIベンチマークでは、MonoDETRは最先端のパフォーマンスを実現し、追加の深度アノテーションを必要としない。
論文 参考訳(メタデータ) (2022-03-24T19:28:54Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Facial Depth and Normal Estimation using Single Dual-Pixel Camera [81.02680586859105]
DP指向のDepth/Normalネットワークを導入し,3次元顔形状を再構成する。
これは、メートル法スケールでの深度マップと表面正規を含む、対応する地上3次元モデルを含んでいる。
近年のDPベース深度/正規推定法で最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-11-25T05:59:27Z) - Guiding Monocular Depth Estimation Using Depth-Attention Volume [38.92495189498365]
本研究では,特に屋内環境に広く分布する平面構造を優先するための奥行き推定法を提案する。
2つのポピュラーな屋内データセットであるNYU-Depth-v2とScanNetの実験により,本手法が最先端の深度推定結果を実現することを示す。
論文 参考訳(メタデータ) (2020-04-06T15:45:52Z) - Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。
モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。
提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文 参考訳(メタデータ) (2019-12-30T10:45:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。