論文の概要: Understanding Bird's-Eye View Semantic HD-Maps Using an Onboard
Monocular Camera
- arxiv url: http://arxiv.org/abs/2012.03040v1
- Date: Sat, 5 Dec 2020 14:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-22 12:15:05.206761
- Title: Understanding Bird's-Eye View Semantic HD-Maps Using an Onboard
Monocular Camera
- Title(参考訳): オンボード型単眼カメラによる鳥眼視意味hdマップの理解
- Authors: Yigit Baran Can, Alexander Liniger, Ozan Unal, Danda Paudel, Luc Van
Gool
- Abstract要約: 本研究では,ワンオンボードカメラからの映像入力を用いて,セマンティック・バードズ・アイ・ビューHDマップのオンライン推定形式でのシーン理解について検討した。
実験では,HDマップの理解において,考慮すべき側面が相補的であることを実証した。
- 参考スコア(独自算出の注目度): 110.83289076967895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous navigation requires scene understanding of the action-space to
move or anticipate events. For planner agents moving on the ground plane, such
as autonomous vehicles, this translates to scene understanding in the
bird's-eye view. However, the onboard cameras of autonomous cars are
customarily mounted horizontally for a better view of the surrounding. In this
work, we study scene understanding in the form of online estimation of semantic
bird's-eye-view HD-maps using the video input from a single onboard camera. We
study three key aspects of this task, image-level understanding, BEV level
understanding, and the aggregation of temporal information. Based on these
three pillars we propose a novel architecture that combines these three
aspects. In our extensive experiments, we demonstrate that the considered
aspects are complementary to each other for HD-map understanding. Furthermore,
the proposed architecture significantly surpasses the current state-of-the-art.
- Abstract(参考訳): 自律ナビゲーションは、イベントを移動または予測するためにアクションスペースのシーン理解を必要とする。
自律走行車などの地上機上を移動するプランナーエージェントにとって、これは鳥の目から見たシーン理解を意味する。
しかし、自動運転車の搭載カメラは、周囲をよりよく見るために、通常水平に設置される。
本研究では,1台のオンボードカメラからの映像入力を用いて,セマンティックバードズ・アイビューhdマップのオンライン推定方式によるシーン理解について検討する。
本稿では,この課題の3つの重要な側面,画像レベルの理解,BEVレベルの理解,時間情報の集約について検討する。
これら3つの柱に基づいて,これら3つの側面を組み合わせた新しいアーキテクチャを提案する。
広範な実験により,hdマップ理解のために検討した側面が相互補完的であることを実証した。
さらに、提案したアーキテクチャは現在の最先端をはるかに上回っている。
関連論文リスト
- Urban Scene Diffusion through Semantic Occupancy Map [49.20779809250597]
UrbanDiffusionは、Bird's-Eye View (BEV)マップに条件付き3次元拡散モデルである。
我々のモデルは,潜在空間内のシーンレベルの構造の分布を学習する。
実世界の運転データセットをトレーニングした後、我々のモデルは多様な都市シーンを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T11:54:35Z) - Tri-Perspective View for Vision-Based 3D Semantic Occupancy Prediction [84.94140661523956]
本稿では,2つの垂直面を追加してBEVに付随するトリ・パースペクティブ・ビュー(TPV)表現を提案する。
3次元空間の各点を3次元平面上の投影された特徴をまとめてモデル化する。
実験結果から,本モデルは全ボクセルのセマンティック占有率を効果的に予測できることが示唆された。
論文 参考訳(メタデータ) (2023-02-15T17:58:10Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - Driving among Flatmobiles: Bird-Eye-View occupancy grids from a
monocular camera for holistic trajectory planning [11.686108908830805]
カメラベースのエンドツーエンド駆動ニューラルネットワークは、カメライメージを駆動制御コマンドにマップする低コストのシステムを実現する。
最近の研究は、解釈可能性とネットワーク決定の精度の両方を増大させる利点を持つ明示的な中間表現を使用することの重要性を示している。
本稿では,Bird-Eye-View中間表現を用いた一眼レフカメラのみの包括的終端軌道計画ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-10T12:16:44Z) - Distilled Semantics for Comprehensive Scene Understanding from Videos [53.49501208503774]
本稿では,一眼レフカメラによる全体像の理解に向けて,セマンティクスとともに深度や動きを学習し,さらなる一歩を踏み出した。
これら3つの課題を,知識蒸留と自己監督に基づく新たなトレーニングプロトコルによって共同で解決する。
その結果, 単眼深度推定, 光流, モーションセグメンテーションの最先端結果が得られた。
論文 参考訳(メタデータ) (2020-03-31T08:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。