論文の概要: CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal Curve Queries and Attention
- arxiv url: http://arxiv.org/abs/2402.06423v2
- Date: Sun, 16 Mar 2025 14:40:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:57:17.387363
- Title: CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal Curve Queries and Attention
- Title(参考訳): CurveFormer++:Turve Propagation with Temporal Curve Queries and Attention
- Authors: Yifeng Bai, Zhirong Chen, Pengpeng Liang, Bo Song, Erkang Cheng,
- Abstract要約: 自動運転車では、下流作業には正確な3次元車線検出が重要である。
最近のCNNとTransformerのアプローチは通常、2段階のモデル設計を適用する。
ビュー変換モジュールを必要としない単一ステージのTransformerベースのCurveFormer++を提案する。
- 参考スコア(独自算出の注目度): 10.484075291713504
- License:
- Abstract: In autonomous driving, accurate 3D lane detection using monocular cameras is important for downstream tasks. Recent CNN and Transformer approaches usually apply a two-stage model design. The first stage transforms the image feature from a front image into a bird's-eye-view (BEV) representation. Subsequently, a sub-network processes the BEV feature to generate the 3D detection results. However, these approaches heavily rely on a challenging image feature transformation module from a perspective view to a BEV representation. In our work, we present CurveFormer++, a single-stage Transformer-based method that does not require the view transform module and directly infers 3D lane results from the perspective image features. Specifically, our approach models the 3D lane detection task as a curve propagation problem, where each lane is represented by a curve query with a dynamic and ordered anchor point set. By employing a Transformer decoder, the model can iteratively refine the 3D lane results. A curve cross-attention module is introduced to calculate similarities between image features and curve queries. To handle varying lane lengths, we employ context sampling and anchor point restriction techniques to compute more relevant image features. Furthermore, we apply a temporal fusion module that incorporates selected informative sparse curve queries and their corresponding anchor point sets to leverage historical information. In the experiments, we evaluate our approach on two publicly real-world datasets. The results demonstrate that our method provides outstanding performance compared with both CNN and Transformer based methods. We also conduct ablation studies to analyze the impact of each component.
- Abstract(参考訳): 自律走行では、単眼カメラを用いた正確な3次元車線検出が下流作業において重要である。
最近のCNNとTransformerのアプローチは通常、2段階のモデル設計を適用する。
第1ステージは、画像特徴を前面画像から鳥眼視(BEV)表現に変換する。
その後、サブネットワークがBEV機能を処理して3D検出結果を生成する。
しかし、これらのアプローチは、視点からBEV表現への挑戦的な画像特徴変換モジュールに大きく依存している。
本稿では,ビュー変換モジュールを必要としない単一ステージのTransformerベースのCurveFormer++を提案する。
具体的には、3次元車線検出タスクを曲線伝搬問題としてモデル化し、各車線は動的かつ順序付けられたアンカー点集合を持つ曲線クエリで表される。
Transformerデコーダを使用することで、3Dレーンの結果を反復的に洗練することができる。
画像特徴と曲線クエリの類似性を計算するために、曲線クロスアテンションモジュールを導入する。
様々なレーン長を扱うために、より関連性の高い画像特徴を計算するためにコンテキストサンプリングとアンカーポイント制限手法を用いる。
さらに、選択された情報的スパース曲線クエリと対応するアンカー点集合を組み込んだ時間融合モジュールを適用し、歴史的情報を活用する。
実験では,2つの公開実世界のデータセットに対するアプローチを評価した。
その結果,提案手法はCNN法とTransformer法の両方と比較して優れた性能を示した。
また、各成分の影響を分析するためのアブレーション研究も行います。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - CurveFormer: 3D Lane Detection by Curve Propagation with Curve Queries
and Attention [3.330270927081078]
3Dレーン検出は、自動運転システムにとって不可欠な部分である。
以前のCNNとTransformerベースの手法は、通常、フロントビューイメージから鳥の目視(BEV)特徴マップを生成する。
単段トランスフォーマーを用いた3次元レーンパラメータの直接計算法であるCurveFormerを提案する。
論文 参考訳(メタデータ) (2022-09-16T14:54:57Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Probabilistic Vehicle Reconstruction Using a Multi-Task CNN [0.0]
ステレオ画像からの形状認識型3D車両再構成のための確率論的アプローチを提案する。
具体的には、車両の向きと車両のキーポイントとワイヤフレームエッジの両方の確率分布を出力するCNNを訓練する。
本手法が最先端の結果を達成し、挑戦的なKITTIベンチマークで評価することを示した。
論文 参考訳(メタデータ) (2021-02-21T20:45:44Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。