論文の概要: Monocular Road Planar Parallax Estimation
- arxiv url: http://arxiv.org/abs/2111.11089v2
- Date: Sun, 9 Jul 2023 18:38:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 19:43:57.177903
- Title: Monocular Road Planar Parallax Estimation
- Title(参考訳): 単眼路平面視差推定法
- Authors: Haobo Yuan, Teng Chen, Wei Sui, Jiafeng Xie, Lefei Zhang, Yuan Li,
Qian Zhang
- Abstract要約: 乾燥可能な表面および周囲環境の3次元構造を推定することは、補助的かつ自律的な運転にとって重要な課題である。
単眼画像からの3Dセンシングのための新しいディープニューラルネットワークであるRoad Planar Parallax Attention Network (RPANet)を提案する。
RPANetは、路面のホモグラフィに整列した一対の画像を入力として取り、3D再構成のための$gamma$mapを出力する。
- 参考スコア(独自算出の注目度): 25.36368935789501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the 3D structure of the drivable surface and surrounding
environment is a crucial task for assisted and autonomous driving. It is
commonly solved either by using 3D sensors such as LiDAR or directly predicting
the depth of points via deep learning. However, the former is expensive, and
the latter lacks the use of geometry information for the scene. In this paper,
instead of following existing methodologies, we propose Road Planar Parallax
Attention Network (RPANet), a new deep neural network for 3D sensing from
monocular image sequences based on planar parallax, which takes full advantage
of the omnipresent road plane geometry in driving scenes. RPANet takes a pair
of images aligned by the homography of the road plane as input and outputs a
$\gamma$ map (the ratio of height to depth) for 3D reconstruction. The $\gamma$
map has the potential to construct a two-dimensional transformation between two
consecutive frames. It implies planar parallax and can be combined with the
road plane serving as a reference to estimate the 3D structure by warping the
consecutive frames. Furthermore, we introduce a novel cross-attention module to
make the network better perceive the displacements caused by planar parallax.
To verify the effectiveness of our method, we sample data from the Waymo Open
Dataset and construct annotations related to planar parallax. Comprehensive
experiments are conducted on the sampled dataset to demonstrate the 3D
reconstruction accuracy of our approach in challenging scenarios.
- Abstract(参考訳): ドライブル表面および周辺環境の3次元構造の推定は、補助運転および自律運転にとって重要な課題である。
lidarのような3dセンサーを使うか、ディープラーニングによってポイントの深さを直接予測する。
しかし、前者は高価であり、後者はシーンの幾何学的情報を使用しない。
本稿では,既存の手法を踏襲する代わりに,平面視差に基づく単眼画像シーケンスから3次元センシングを行う新しい深層ニューラルネットワークである road planar parallax attention network (rpanet) を提案する。
rpanetは、路面のホモグラフィで整列した画像を入力とし、3次元再構成のために$\gamma$ map(高さと深さの比)を出力する。
$\gamma$ 写像は、2つの連続するフレーム間の2次元変換を構築することができる。
これは平面視差を意味し、連続するフレームをワープすることで3次元構造を推定するための基準となる道路平面と組み合わせることができる。
さらに,平面視差による変位をネットワークがよりよく知覚できるように,新しいクロスアテンションモジュールを導入する。
提案手法の有効性を検証するため,Waymo Open Datasetのデータをサンプリングし,平面視差に関するアノテーションを構築する。
また,本手法の3次元再構成精度を示すため,サンプルデータセットを用いた総合実験を行った。
関連論文リスト
- ParaPoint: Learning Global Free-Boundary Surface Parameterization of 3D Point Clouds [52.03819676074455]
ParaPointは、グローバルな自由境界面パラメータ化を実現するための教師なしのニューラルネットワークパイプラインである。
この研究は、グローバルマッピングと自由境界の両方を追求するニューラルポイントクラウドパラメータ化を調査する最初の試みである。
論文 参考訳(メタデータ) (2024-03-15T14:35:05Z) - SketchSampler: Sketch-based 3D Reconstruction via View-dependent Depth
Sampling [75.957103837167]
1枚のスケッチ画像に基づいて3次元形状を再構成することは、スパースで不規則なスケッチと正規の高密度な3次元形状との間に大きな領域ギャップがあるため困難である。
既存の作品では、3D座標を直接予測するためにスケッチから抽出されたグローバルな特徴を活用しようとするが、通常は入力スケッチに忠実でない細部を失う。
論文 参考訳(メタデータ) (2022-08-14T16:37:51Z) - ONCE-3DLanes: Building Monocular 3D Lane Detection [41.46466150783367]
OnCE-3DLanesは3次元空間にレーンレイアウトアノテーションを付加した実世界の自律走行データセットである。
点雲と画像ピクセルとの明確な関係を利用して、データセットのアノテーションパイプラインは、高品質な3Dレーンの位置を自動的に生成するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T16:35:25Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z) - KAPLAN: A 3D Point Descriptor for Shape Completion [80.15764700137383]
KAPLANは、一連の2D畳み込みを通じて局所的な形状情報を集約する3Dポイント記述子である。
各平面において、正規点や平面間距離のような点特性は2次元グリッドに集約され、効率的な2次元畳み込みエンコーダを持つ特徴表現に抽象化される。
公開データセットの実験では、KAPLANが3D形状の完成のために最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2020-07-31T21:56:08Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。