論文の概要: CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal
Curve Queries and Attention
- arxiv url: http://arxiv.org/abs/2402.06423v1
- Date: Fri, 9 Feb 2024 14:13:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 16:39:31.762144
- Title: CurveFormer++: 3D Lane Detection by Curve Propagation with Temporal
Curve Queries and Attention
- Title(参考訳): curveformer++: 時間曲線クエリと注意を伴う曲線伝搬による3次元レーン検出
- Authors: Yifeng Bai, Zhirong Chen, Pengpeng Liang, Erkang Cheng
- Abstract要約: 画像特徴ビュー変換モジュールを必要としない単一ステージのTransformerベースのCurveFormer++を提案する。
Transformerデコーダを使用することで、3Dレーン検出結果を反復的に洗練することができる。
実世界の2つの公開データセット上での3次元車線検出タスクに対するアプローチを評価する。
- 参考スコア(独自算出の注目度): 6.337799395191661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In autonomous driving, 3D lane detection using monocular cameras is an
important task for various downstream planning and control tasks. Recent CNN
and Transformer approaches usually apply a two-stage scheme in the model
design. The first stage transforms the image feature from a front image into a
bird's-eye-view (BEV) representation. Subsequently, a sub-network processes the
BEV feature map to generate the 3D detection results. However, these approaches
heavily rely on a challenging image feature transformation module from a
perspective view to a BEV representation. In our work, we present
CurveFormer++, a single-stage Transformer-based method that does not require
the image feature view transform module and directly infers 3D lane detection
results from the perspective image features. Specifically, our approach models
the 3D detection task as a curve propagation problem, where each lane is
represented by a curve query with a dynamic and ordered anchor point set. By
employing a Transformer decoder, the model can iteratively refine the 3D lane
detection results. A curve cross-attention module is introduced in the
Transformer decoder to calculate similarities between image features and curve
queries of lanes. To handle varying lane lengths, we employ context sampling
and anchor point restriction techniques to compute more relevant image features
for a curve query. Furthermore, we apply a temporal fusion module that
incorporates selected informative sparse curve queries and their corresponding
anchor point sets to leverage historical lane information. In the experiments,
we evaluate our approach for the 3D lane detection task on two publicly
available real-world datasets. The results demonstrate that our method provides
outstanding performance compared with both CNN and Transformer based methods.
We also conduct ablation studies to analyze the impact of each component in our
approach.
- Abstract(参考訳): 自律走行では、単眼カメラを用いた3次元車線検出は、様々な下流計画および制御タスクにとって重要な課題である。
最近のCNNとTransformerのアプローチはモデル設計に通常2段階のスキームを適用する。
第1ステージは、画像特徴を前面画像から鳥眼視(BEV)表現に変換する。
その後、サブネットワークがBEV特徴マップを処理して3D検出結果を生成する。
しかし、これらのアプローチは、視点からBEV表現への挑戦的な画像特徴変換モジュールに大きく依存している。
本稿では,画像特徴ビュー変換モジュールを必要としない単一ステージのTransformerベースのCurveFormer++を紹介し,視点画像特徴から3Dレーン検出結果を直接推測する。
具体的には,3次元検出タスクを曲線伝搬問題としてモデル化し,各レーンを動的かつ順序付けられたアンカー点集合を持つ曲線クエリで表現する。
Transformerデコーダを使用することで、3Dレーン検出結果を反復的に洗練することができる。
トランスデコーダに曲線クロスアテンションモジュールを導入し、画像特徴とレーンの曲線クエリの類似度を算出する。
様々なレーン長を扱うために,カーブクエリに対してより関連性の高い画像特徴を計算するために,コンテキストサンプリングとアンカーポイント制限技術を用いる。
さらに、選択された情報的スパース曲線クエリと対応するアンカー点集合を組み込んだ時間融合モジュールを適用し、歴史的レーン情報を活用する。
実験では,公に利用可能な2つの実世界のデータセット上での3次元レーン検出タスクに対するアプローチを評価する。
その結果,提案手法はCNN法とTransformer法の両方と比較して優れた性能を示した。
また、アプローチにおける各コンポーネントの影響を分析するためのアブレーション研究も行います。
関連論文リスト
- 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Parametric Depth Based Feature Representation Learning for Object
Detection and Segmentation in Bird's Eye View [44.78243406441798]
本稿では,このような特徴変換をモデル化するために,深度などの幾何学的情報を活用することに焦点を当てる。
まず2次元画像の特徴を,各ビューの画素ごとのパラメトリック深度分布を予測して,エゴ車に定義された3次元空間に引き上げる。
次に、深度からBEVフレームへの3次元空間占有度に基づいて、3次元特徴体積を集約する。
論文 参考訳(メタデータ) (2023-07-09T06:07:22Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - CurveFormer: 3D Lane Detection by Curve Propagation with Curve Queries
and Attention [3.330270927081078]
3Dレーン検出は、自動運転システムにとって不可欠な部分である。
以前のCNNとTransformerベースの手法は、通常、フロントビューイメージから鳥の目視(BEV)特徴マップを生成する。
単段トランスフォーマーを用いた3次元レーンパラメータの直接計算法であるCurveFormerを提案する。
論文 参考訳(メタデータ) (2022-09-16T14:54:57Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z) - Probabilistic Vehicle Reconstruction Using a Multi-Task CNN [0.0]
ステレオ画像からの形状認識型3D車両再構成のための確率論的アプローチを提案する。
具体的には、車両の向きと車両のキーポイントとワイヤフレームエッジの両方の確率分布を出力するCNNを訓練する。
本手法が最先端の結果を達成し、挑戦的なKITTIベンチマークで評価することを示した。
論文 参考訳(メタデータ) (2021-02-21T20:45:44Z) - Spherical Transformer: Adapting Spherical Signal to CNNs [53.18482213611481]
Spherical Transformerは、球状信号を標準CNNで直接処理できるベクトルに変換できます。
我々は,球面MNIST認識,3次元オブジェクト分類,全方向画像セマンティックセグメンテーションの課題に対するアプローチを評価する。
論文 参考訳(メタデータ) (2021-01-11T12:33:16Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。