論文の概要: Learning to Predict 3D Lane Shape and Camera Pose from a Single Image
via Geometry Constraints
- arxiv url: http://arxiv.org/abs/2112.15351v1
- Date: Fri, 31 Dec 2021 08:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 20:54:53.710897
- Title: Learning to Predict 3D Lane Shape and Camera Pose from a Single Image
via Geometry Constraints
- Title(参考訳): 幾何学的制約による単一画像からの3次元レーン形状とカメラポッドの予測
- Authors: Ruijin Liu, Dapeng Chen, Tie Liu, Zhiliang Xiong, Zejian Yuan
- Abstract要約: 2段階の枠組みで1枚の画像からカメラのポーズを推定することで3次元レーンを予測することを提案する。
第1段階は、視点画像からカメラのポーズタスクを目標とする。
第2段階は3次元車線課題を対象としており、推定されたポーズを用いて、距離不変の車線外観を含むトップビュー画像を生成する。
- 参考スコア(独自算出の注目度): 25.7441545608721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detecting 3D lanes from the camera is a rising problem for autonomous
vehicles. In this task, the correct camera pose is the key to generating
accurate lanes, which can transform an image from perspective-view to the
top-view. With this transformation, we can get rid of the perspective effects
so that 3D lanes would look similar and can accurately be fitted by low-order
polynomials. However, mainstream 3D lane detectors rely on perfect camera poses
provided by other sensors, which is expensive and encounters multi-sensor
calibration issues. To overcome this problem, we propose to predict 3D lanes by
estimating camera pose from a single image with a two-stage framework. The
first stage aims at the camera pose task from perspective-view images. To
improve pose estimation, we introduce an auxiliary 3D lane task and geometry
constraints to benefit from multi-task learning, which enhances consistencies
between 3D and 2D, as well as compatibility in the above two tasks. The second
stage targets the 3D lane task. It uses previously estimated pose to generate
top-view images containing distance-invariant lane appearances for predicting
accurate 3D lanes. Experiments demonstrate that, without ground truth camera
pose, our method outperforms the state-of-the-art perfect-camera-pose-based
methods and has the fewest parameters and computations. Codes are available at
https://github.com/liuruijin17/CLGo.
- Abstract(参考訳): カメラから3Dレーンを検出することは、自動運転車にとってますます問題になる。
このタスクでは、正確なカメラのポーズが正確なレーンを生成する鍵であり、ビューからトップビューに画像を変換できる。
この変換により、3dレーンが似ているように見え、低次多項式によって正確に適合できるように、視点効果を取り除くことができる。
しかし、主流の3Dレーン検出器は、他のセンサーが提供する完璧なカメラのポーズに依存している。
この問題を解決するために,2段階のフレームワークを用いて1枚の画像からカメラポーズを推定することにより,3次元レーンの予測を提案する。
第1ステージは、視点画像からカメラポーズタスクを目標とする。
ポーズ推定を改善するために,マルチタスク学習の恩恵を受けるための補助的な3Dレーンタスクと幾何学的制約を導入する。
第2段階は3dレーンタスクをターゲットにしている。
従来推定されたポーズを用いて、距離不変レーンの外観を含むトップビュー画像を生成し、正確な3Dレーンを予測する。
実験により,地平カメラのポーズがなければ,本手法は最先端の完全カメラ配置法よりも優れ,最も少ないパラメータと計算量を有することが示された。
コードはhttps://github.com/liuruijin17/CLGoで入手できる。
関連論文リスト
- EPOCH: Jointly Estimating the 3D Pose of Cameras and Humans [5.047302480095444]
モノクラーヒューマンポース推定は、カメラが捉えた単一の2D画像から人間の関節の3D位置を決定することを目的としている。
本研究では,近似に頼らず,全視点カメラモデルの利用を提唱する。
本稿では,プライスリフタネットワーク(LiftNet)とプライスレグレシタネットワーク(RegNet)の2つの主要コンポーネントからなるEPOCHフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-06-28T08:16:54Z) - EgoLoc: Revisiting 3D Object Localization from Egocentric Videos with
Visual Queries [68.75400888770793]
我々は、エゴセントリックなビデオから2次元オブジェクトを検索することで、3次元のマルチビュー幾何をよりうまく絡み合わせるパイプラインを定式化する。
具体的には、VQ3Dタスクにおける新しい最先端の成果を設定できる87.12%の総合的な成功率を達成する。
論文 参考訳(メタデータ) (2022-12-14T01:28:12Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - VirtualPose: Learning Generalizable 3D Human Pose Models from Virtual
Data [69.64723752430244]
このタスクに特有の隠れた「フリーランチ」を活用するための2段階学習フレームワークであるVirtualPoseを紹介する。
1段目は画像を抽象幾何学表現(AGR)に変換し、2段目はそれらを3Dポーズにマッピングする。
1)第1段は多様な2次元データセットでトレーニングし、限られた外観への過度な適合のリスクを軽減し、2)多数の仮想カメラとポーズから合成された多様なAGRでトレーニングすることができる。
論文 参考訳(メタデータ) (2022-07-20T14:47:28Z) - PersFormer: 3D Lane Detection via Perspective Transformer and the
OpenLane Benchmark [109.03773439461615]
PersFormerは、新しいトランスフォーマーベースの空間特徴変換モジュールを備えた、エンドツーエンドのモノクル3Dレーン検出器である。
高品質なアノテーションとシナリオの多様性を備えたOpenLaneと呼ばれる,最初の大規模な3Dレーンデータセットの1つをリリースしました。
論文 参考訳(メタデータ) (2022-03-21T16:12:53Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - CanonPose: Self-Supervised Monocular 3D Human Pose Estimation in the
Wild [31.334715988245748]
ラベルのないマルチビューデータから1つの画像3Dポーズ推定器を学習する自己教師型アプローチを提案する。
既存のほとんどの方法とは対照的に、校正カメラは必要とせず、移動カメラから学ぶことができる。
成功の鍵は、ビューとトレーニングサンプルの情報を混ぜ合わせた、新しく偏見のない再建目標である。
論文 参考訳(メタデータ) (2020-11-30T10:42:27Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Learning Precise 3D Manipulation from Multiple Uncalibrated Cameras [13.24490469380487]
本稿では,3次元な精密な操作タスクをエンド・ツー・エンドで学習するための効果的なマルチビュー手法を提案する。
提案手法は,ポイントクラウドやボクセルグリッドのような明示的な3D表現を構築することなく,静的に配置された複数のRGBカメラビューを用いて,これらのタスクを達成できることを学習する。
論文 参考訳(メタデータ) (2020-02-21T03:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。