論文の概要: Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images
- arxiv url: http://arxiv.org/abs/2110.01997v1
- Date: Tue, 5 Oct 2021 12:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 14:10:38.294095
- Title: Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images
- Title(参考訳): オンボード画像からの鳥の目視トラヒックシーンの理解
- Authors: Yigit Baran Can, Alexander Liniger, Danda Pani Paudel, Luc Van Gool
- Abstract要約: 本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 128.881857704338
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous navigation requires structured representation of the road network
and instance-wise identification of the other traffic agents. Since the traffic
scene is defined on the ground plane, this corresponds to scene understanding
in the bird's-eye-view (BEV). However, the onboard cameras of autonomous cars
are customarily mounted horizontally for a better view of the surrounding,
making this task very challenging. In this work, we study the problem of
extracting a directed graph representing the local road network in BEV
coordinates, from a single onboard camera image. Moreover, we show that the
method can be extended to detect dynamic objects on the BEV plane. The
semantics, locations, and orientations of the detected objects together with
the road graph facilitates a comprehensive understanding of the scene. Such
understanding becomes fundamental for the downstream tasks, such as path
planning and navigation. We validate our approach against powerful baselines
and show that our network achieves superior performance. We also demonstrate
the effects of various design choices through ablation studies. Code:
https://github.com/ybarancan/STSU
- Abstract(参考訳): 自律ナビゲーションには、道路網の構造化表現と、他の交通機関のインスタンス単位での識別が必要である。
交通シーンは地上平面上で定義されるので、これは鳥の目視(BEV)におけるシーン理解に相当する。
しかし、自律走行車の搭載カメラは、周囲をよりよく見るために水平に取り付けられるため、この作業は非常に困難である。
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
さらに,BEV平面上の動的物体を検出するために,提案手法を拡張可能であることを示す。
検出されたオブジェクトのセマンティクス、位置、方向と道路グラフは、シーンの包括的な理解を促進する。
このような理解は、経路計画やナビゲーションといった下流タスクの基盤となる。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
また,様々な設計選択の効果をアブレーション研究によって実証する。
コード:https://github.com/ybarancan/STSU
関連論文リスト
- Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - BEV-MODNet: Monocular Camera based Bird's Eye View Moving Object
Detection for Autonomous Driving [2.9769485817170387]
CNNは、現場のグローバルコンテキストを活用して、より良いプロジェクトを作成することができる。
我々は、BEV空間内で5つのクラスを移動するオブジェクトマスクのアノテーションを備えた12.9k画像からなる拡張KITTI-rawデータセットを作成する。
簡単なベースライン実装を用いてmIoUの13%の大幅な改善を観測した。
論文 参考訳(メタデータ) (2021-07-11T01:11:58Z) - Understanding Bird's-Eye View Semantic HD-Maps Using an Onboard
Monocular Camera [110.83289076967895]
本研究では,ワンオンボードカメラからの映像入力を用いて,セマンティック・バードズ・アイ・ビューHDマップのオンライン推定形式でのシーン理解について検討した。
実験では,HDマップの理解において,考慮すべき側面が相補的であることを実証した。
論文 参考訳(メタデータ) (2020-12-05T14:39:14Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。