論文の概要: Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation
- arxiv url: http://arxiv.org/abs/2504.18325v1
- Date: Fri, 25 Apr 2025 13:08:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.772264
- Title: Depth3DLane: Monocular 3D Lane Detection via Depth Prior Distillation
- Title(参考訳): 深度3DLane:深度前蒸留による単分子3Dレーン検出
- Authors: Dongxin Lyu, Han Huang, Cheng Tan, Zimu Li,
- Abstract要約: 限界に対処し、3次元車線検出精度を向上させるためのBEVベースのフレームワークを提案する。
教師モデルから意味深度知識を伝達するために,Depth Prior Distillationを活用する。
本手法は,z軸誤差による最先端性能を実現する。
- 参考スコア(独自算出の注目度): 5.909083729156255
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Monocular 3D lane detection is challenging due to the difficulty in capturing depth information from single-camera images. A common strategy involves transforming front-view (FV) images into bird's-eye-view (BEV) space through inverse perspective mapping (IPM), facilitating lane detection using BEV features. However, IPM's flat-ground assumption and loss of contextual information lead to inaccuracies in reconstructing 3D information, especially height. In this paper, we introduce a BEV-based framework to address these limitations and improve 3D lane detection accuracy. Our approach incorporates a Hierarchical Depth-Aware Head that provides multi-scale depth features, mitigating the flat-ground assumption by enhancing spatial awareness across varying depths. Additionally, we leverage Depth Prior Distillation to transfer semantic depth knowledge from a teacher model, capturing richer structural and contextual information for complex lane structures. To further refine lane continuity and ensure smooth lane reconstruction, we introduce a Conditional Random Field module that enforces spatial coherence in lane predictions. Extensive experiments validate that our method achieves state-of-the-art performance in terms of z-axis error and outperforms other methods in the field in overall performance. The code is released at: https://anonymous.4open.science/r/Depth3DLane-DCDD.
- Abstract(参考訳): 単眼画像からの深度情報の取得が難しいため,単眼で3次元線検出が困難である。
一般的な戦略として、正面視(FV)画像を逆視点マッピング(IPM)を通じて鳥眼視(BEV)空間に変換することで、BEV特徴を用いた車線検出を容易にする。
しかし、IPMの平面的仮定と文脈情報の喪失は、特に高さの3D情報の再構成において不正確な結果をもたらす。
本稿では、これらの制約に対処し、3次元車線検出精度を向上させるためのBEVベースのフレームワークを提案する。
提案手法には階層型深度認識ヘッドが組み込まれており,様々な深度にまたがる空間認識を高めることにより,平面的仮定を緩和する。
さらに、Depth Prior Distillationを利用して、教師モデルから意味深度知識を伝達し、複雑な車線構造に対してよりリッチな構造情報と文脈情報をキャプチャする。
本研究では,車線継続性を向上し,スムーズな車線復元を実現するために,車線予測における空間コヒーレンスを強制する条件付きランダムフィールドモジュールを導入する。
大規模な実験により,本手法はz軸誤差の点から最先端性能を実現し,性能の面で他の手法よりも優れていたことが確認された。
コードは以下の通り:https://anonymous.4open.science/r/Depth3DLane-DCDD。
関連論文リスト
- Revisiting Monocular 3D Object Detection with Depth Thickness Field [44.4805861813093]
モノクロ3次元物体検出のためのシーン・ツー・インスタンス深度適応ネットワークであるMonoDTFを提案する。
このフレームワークは主にSDR(Scene-Level Depth Retargeting)モジュールとISR(Instance-Level Spatial Refinement)モジュールで構成される。
後者は、インスタンスの誘導によりボクセル空間を洗練し、深さ厚さ場の3Dインスタンス認識能力を向上する。
論文 参考訳(メタデータ) (2024-12-26T10:51:50Z) - Anchor3DLane++: 3D Lane Detection via Sample-Adaptive Sparse 3D Anchor Regression [38.70696274059616]
本稿では,3次元レーンアンカーを構造表現として定義し,FV特徴から直接予測を行う,Anchor3DLane++という新しいBEVフリー手法を提案する。
Anchor3DLane++は従来の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-12-22T06:52:10Z) - Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - Instance-aware Multi-Camera 3D Object Detection with Structural Priors
Mining and Self-Boosting Learning [93.71280187657831]
カメラによる鳥眼視(BEV)知覚パラダイムは、自律運転分野において大きな進歩を遂げている。
画像平面のインスタンス認識をBEV検出器内の深度推定プロセスに統合するIA-BEVを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:24:42Z) - CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity [34.025530326420146]
我々は、新しいエンドツーエンドのモノクロ3Dオブジェクト検出フレームワークであるComplementary-BEVを開発した。
道路カメラを用いたDAIR-V2X-IとRope3Dの公開3次元検出ベンチマークについて広範な実験を行った。
カメラモデルのAPスコアが初めてDAIR-V2X-Iで80%に達する。
論文 参考訳(メタデータ) (2023-10-04T13:38:53Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Towards Domain Generalization for Multi-view 3D Object Detection in
Bird-Eye-View [11.958753088613637]
まず,MV3D-Detタスクにおける領域ギャップの原因を解析する。
頑健な深度予測を得るために,カメラの内在パラメータから深度推定を分離する手法を提案する。
焦点長の値を変更して複数の擬似ドメインを作成し、敵の訓練損失を発生させ、特徴表現をよりドメインに依存しないものにするよう促す。
論文 参考訳(メタデータ) (2023-03-03T02:59:13Z) - Towards Model Generalization for Monocular 3D Object Detection [57.25828870799331]
我々は,Mono3Dオブジェクト検出に有効な統合カメラ一般化パラダイム(CGP)を提案する。
また,インスタンスレベルの拡張によりギャップを埋める2D-3D幾何一貫性オブジェクトスケーリング戦略(GCOS)を提案する。
DGMono3Dと呼ばれる手法は、評価された全てのデータセットに対して顕著な性能を達成し、SoTAの教師なしドメイン適応スキームを上回ります。
論文 参考訳(メタデータ) (2022-05-23T23:05:07Z) - Probabilistic and Geometric Depth: Detecting Objects in Perspective [78.00922683083776]
3次元物体検出は、運転支援システムなどの様々な実用用途で必要とされる重要な機能である。
双眼視やLiDARに頼っている従来の設定に比べて、経済的な解決策として単眼3D検出が注目されているが、それでも満足のいく結果が得られていない。
本稿ではまず,この問題に関する系統的研究を行い,現在の単分子3次元検出問題をインスタンス深度推定問題として単純化できることを考察する。
論文 参考訳(メタデータ) (2021-07-29T16:30:33Z) - Virtual Normal: Enforcing Geometric Constraints for Accurate and Robust
Depth Prediction [87.08227378010874]
深度予測における高次3次元幾何学的制約の重要性を示す。
単純な幾何学的制約を強制する損失項を設計することにより、単眼深度推定の精度とロバスト性を大幅に改善する。
The-of-the-art results of learning metric depth on NYU Depth-V2 and KITTI。
論文 参考訳(メタデータ) (2021-03-07T00:08:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。