論文の概要: Breaking Down Monocular Ambiguity: Exploiting Temporal Evolution for 3D Lane Detection
- arxiv url: http://arxiv.org/abs/2504.20525v3
- Date: Wed, 05 Nov 2025 02:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 13:56:26.123451
- Title: Breaking Down Monocular Ambiguity: Exploiting Temporal Evolution for 3D Lane Detection
- Title(参考訳): 単分子の曖昧さを断ち切る:3次元車線検出のための時間的進化の爆発
- Authors: Huan Zheng, Wencheng Han, Tianyi Yan, Cheng-zhong Xu, Jianbing Shen,
- Abstract要約: 単眼3次元車線検出は,前頭側視像(FV)から車線の3次元位置を推定することを目的としている。
既存の手法は、単一フレーム入力の固有のあいまいさによって制約される。
車両が移動するときにシーンの時間的進化に埋め込まれたリッチな情報を解放することを提案する。
- 参考スコア(独自算出の注目度): 79.98605061363999
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monocular 3D lane detection aims to estimate the 3D position of lanes from frontal-view (FV) images. However, existing methods are fundamentally constrained by the inherent ambiguity of single-frame input, which leads to inaccurate geometric predictions and poor lane integrity, especially for distant lanes. To overcome this, we propose to unlock the rich information embedded in the temporal evolution of the scene as the vehicle moves. Our proposed Geometry-aware Temporal Aggregation Network (GTA-Net) systematically leverages the temporal information from complementary perspectives. First, Temporal Geometry Enhancement Module (TGEM) learns geometric consistency across consecutive frames, effectively recovering depth information from motion to build a reliable 3D scene representation. Second, to enhance lane integrity, Temporal Instance-aware Query Generation (TIQG) module aggregates instance cues from past and present frames. Crucially, for lanes that are ambiguous in the current view, TIQG innovatively synthesizes a pseudo future perspective to generate queries that reveal lanes which would otherwise be missed. The experiments demonstrate that GTA-Net achieves new SoTA results, significantly outperforming existing monocular 3D lane detection solutions.
- Abstract(参考訳): 単眼3次元車線検出は,前頭側視像(FV)から車線の3次元位置を推定することを目的としている。
しかし、既存の手法は、特に遠くの車線において、不正確な幾何学的予測と不正確な車線整合性をもたらす単一フレーム入力の本来のあいまいさによって、基本的に制約されている。
これを解決するために,車両の移動に伴うシーンの時間的進化に埋め込まれたリッチな情報をアンロックすることを提案する。
提案する幾何対応時間集約ネットワーク(GTA-Net)は,相補的な視点から時間情報を体系的に活用する。
まず、TGEM(Temporal Geometry Enhancement Module)は、連続するフレーム間の幾何的一貫性を学習し、動作から深度情報を効果的に回収し、信頼性の高い3Dシーン表現を構築する。
第二に、レーンの整合性を高めるために、TIQG(Temporal Instance-aware Query Generation)モジュールは、過去のフレームと現在のフレームからインスタンスキューを集約する。
重要なことは、現在の視点であいまいな車線に対して、TIQGは革新的に疑似将来の視点を合成し、そうでなければ見逃される車線を示すクエリを生成する。
実験により, GTA-Net は新たな SoTA 結果を実現し, 既存の単分子3次元車線検出ソリューションを著しく上回った。
関連論文リスト
- MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors [24.753860375872215]
本稿では,MonoDGPと呼ばれるトランスフォーマーを用いたモノクロ3Dオブジェクト検出手法を提案する。
射影公式を変更するために、パースペクティブ不変幾何誤差を採用する。
提案手法は, 余分なデータを必要としないKITTIベンチマークにおいて, 最先端の性能を示す。
論文 参考訳(メタデータ) (2024-10-25T14:31:43Z) - LaneCPP: Continuous 3D Lane Detection using Physical Priors [45.52331418900137]
レーンCPPは、車線構造と道路形状に関する物理的事前知識を活用する連続した3次元車線検出モデルを用いる。
コントリビューションのメリットを示し、3次元車線検出をより堅牢にするための事前利用の意義を実証する。
論文 参考訳(メタデータ) (2024-06-12T16:31:06Z) - Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting [75.7154104065613]
本稿では,3次元融合過程を学習するために,教師の蒸留と自己学習によって訓練された新しい深度補完モデルを提案する。
また,地上の真理幾何に基づくシーン生成手法のベンチマーク手法も導入した。
論文 参考訳(メタデータ) (2024-04-30T17:59:40Z) - OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object
Detection [51.153003057515754]
OPA-3Dは、Occlusion-Aware Pixel-Wise Aggregationネットワークである。
密集した風景深度と、奥行きのある箱残量と物の境界箱を共同で推定する。
メインカーのカテゴリーでは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-11-02T14:19:13Z) - Reconstruct from Top View: A 3D Lane Detection Approach based on
Geometry Structure Prior [19.1954119672487]
本研究では,2次元から3次元のレーン再構成プロセスの下での幾何学的構造を利用して,単分子式3次元レーン検出問題に対する高度なアプローチを提案する。
まず, 3次元車線と地上2次元車線との形状を解析し, 先行構造に基づく明示的な監督を提案する。
第2に、2次元レーン表現における構造損失を低減するため、フロントビュー画像からトップビューレーン情報を直接抽出する。
論文 参考訳(メタデータ) (2022-06-21T04:03:03Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - Geometry-aware data augmentation for monocular 3D object detection [18.67567745336633]
本稿では,自動運転システムにおける必須モジュールの一つであるモノキュラー3次元物体検出について述べる。
重要な課題は、深さ回復問題は単眼データに不備があることです。
我々は,既存の手法が,異なる幾何学的シフトが発生した場合の深さをロバストに推定できないことを明らかにするために,詳細な解析を行う。
上記の操作を,対応する4つの3D対応データ拡張手法に変換する。
論文 参考訳(メタデータ) (2021-04-12T23:12:48Z) - Road Curb Detection and Localization with Monocular Forward-view Vehicle
Camera [74.45649274085447]
魚眼レンズを装着した校正単眼カメラを用いて3Dパラメータを推定するロバストな手法を提案する。
我々のアプローチでは、車両が90%以上の精度で、リアルタイムで距離を抑えることができる。
論文 参考訳(メタデータ) (2020-02-28T00:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。