論文の概要: Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images
- arxiv url: http://arxiv.org/abs/2211.04557v1
- Date: Tue, 8 Nov 2022 20:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 17:32:10.092260
- Title: Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images
- Title(参考訳): 周辺単眼画像からの鳥眼視における出現・活動情報の推定
- Authors: Sarthak Sharma, Unnikrishnan R. Nair, Udit Singh Parihar, Midhun Menon
S and Srikanth Vidapanakal
- Abstract要約: Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
- 参考スコア(独自算出の注目度): 2.69840007334476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous driving requires efficient reasoning about the location and
appearance of the different agents in the scene, which aids in downstream tasks
such as object detection, object tracking, and path planning. The past few
years have witnessed a surge in approaches that combine the different taskbased
modules of the classic self-driving stack into an End-toEnd(E2E) trainable
learning system. These approaches replace perception, prediction, and sensor
fusion modules with a single contiguous module with shared latent space
embedding, from which one extracts a human-interpretable representation of the
scene. One of the most popular representations is the Birds-eye View (BEV),
which expresses the location of different traffic participants in the ego
vehicle frame from a top-down view. However, a BEV does not capture the
chromatic appearance information of the participants. To overcome this
limitation, we propose a novel representation that captures various traffic
participants appearance and occupancy information from an array of monocular
cameras covering 360 deg field of view (FOV). We use a learned image embedding
of all camera images to generate a BEV of the scene at any instant that
captures both appearance and occupancy of the scene, which can aid in
downstream tasks such as object tracking and executing language-based commands.
We test the efficacy of our approach on synthetic dataset generated from CARLA.
The code, data set, and results can be found at https://rebrand.ly/APP
OCC-results.
- Abstract(参考訳): 自律運転では、シーン内のさまざまなエージェントの位置と外観に関する効率的な推論が必要であり、オブジェクト検出、オブジェクト追跡、パス計画といった下流タスクを支援する。
過去数年間、古典的な自動運転スタックのさまざまなタスクベースモジュールを、エンドツーエンド(e2e)トレーニング可能な学習システムに統合するアプローチが急増している。
これらのアプローチは、知覚、予測、センサー融合モジュールを、シーンの人間解釈可能な表現を抽出する共有潜在空間埋め込みを持つ単一の連続モジュールに置き換える。
最も人気のある表現の1つがバードズアイビュー(BEV)であり、トップダウンビューからエゴの車両フレーム内の様々な交通参加者の位置を表現している。
しかし、BEVは参加者の彩色外観情報をキャプチャしない。
この制限を克服するために,360デグ視野(FOV)をカバーするモノクロカメラのアレイから,様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを用いて、シーンの外観と占有度の両方をキャプチャする瞬間にシーンのBEVを生成し、オブジェクト追跡や言語ベースのコマンドの実行といった下流タスクを支援する。
CARLAから生成された合成データセットに対するアプローチの有効性を検証した。
コード、データセット、結果はhttps://rebrand.ly/APP OCC-resultsで確認できる。
関連論文リスト
- BEVSeg2TP: Surround View Camera Bird's-Eye-View Based Joint Vehicle
Segmentation and Ego Vehicle Trajectory Prediction [4.328789276903559]
軌道予測は自動車の自律性にとって重要な課題である。
学習に基づく軌道予測への関心が高まっている。
認識能力を向上させる可能性があることが示される。
論文 参考訳(メタデータ) (2023-12-20T15:02:37Z) - Towards Viewpoint Robustness in Bird's Eye View Segmentation [85.99907496019972]
AV知覚モデルがカメラ視点の変化にどのように影響するかを考察する。
投機時のピッチ、ヨー、深さ、高さへの小さな変化は、大きな性能低下につながる。
本稿では,新しいビュー合成技術を導入し,収集したデータをターゲットリグの視点に変換する手法を提案する。
論文 参考訳(メタデータ) (2023-09-11T02:10:07Z) - Linking vision and motion for self-supervised object-centric perception [16.821130222597155]
オブジェクト中心の表現は、自律運転アルゴリズムが多くの独立したエージェントとシーンの特徴の間の相互作用を推論することを可能にする。
伝統的にこれらの表現は教師付き学習によって得られてきたが、これは下流の駆動タスクからの認識を分離し、一般化を損なう可能性がある。
我々は、RGBビデオと車両のポーズを入力として、自己教師対象中心の視覚モデルを適用してオブジェクト分解を行う。
論文 参考訳(メタデータ) (2023-07-14T04:21:05Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - LaRa: Latents and Rays for Multi-Camera Bird's-Eye-View Semantic
Segmentation [43.12994451281451]
複数のカメラからの車両セマンティックセグメンテーションのための効率的なエンコーダデコーダである'LaRa'を提案する。
我々のアプローチは、複数のセンサーにまたがる情報を、コンパクトでリッチな潜在表現の集合に集約するクロスアテンションシステムを用いています。
論文 参考訳(メタデータ) (2022-06-27T13:37:50Z) - BEVerse: Unified Perception and Prediction in Birds-Eye-View for
Vision-Centric Autonomous Driving [92.05963633802979]
マルチカメラシステムに基づく3次元認識と予測のための統合フレームワークであるBEVerseを提案する。
マルチタスクBEVerseは3次元オブジェクト検出,セマンティックマップ構築,動き予測において単一タスク法より優れていることを示す。
論文 参考訳(メタデータ) (2022-05-19T17:55:35Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。