論文の概要: A Sim2Real Deep Learning Approach for the Transformation of Images from
Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's
Eye View
- arxiv url: http://arxiv.org/abs/2005.04078v1
- Date: Fri, 8 May 2020 14:54:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 11:57:37.199439
- Title: A Sim2Real Deep Learning Approach for the Transformation of Images from
Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's
Eye View
- Title(参考訳): 複数の車両搭載カメラから鳥眼視におけるセマンティック・セグメンテーション画像への画像変換のためのSim2Real Deep Learningアプローチ
- Authors: Lennart Reiher, Bastian Lampe, Lutz Eckstein
- Abstract要約: カメラの視点を鳥の視線(BEV)に変換すると、距離をより容易に推定できる。
本稿では,複数の車載カメラから補正された360度BEV画像を得る方法について述べる。
ニューラルネットワークのアプローチは、手動でラベル付けされたデータに頼るのではなく、実世界のデータに対してうまく一般化するように、合成データセットでトレーニングされる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate environment perception is essential for automated driving. When
using monocular cameras, the distance estimation of elements in the environment
poses a major challenge. Distances can be more easily estimated when the camera
perspective is transformed to a bird's eye view (BEV). For flat surfaces,
Inverse Perspective Mapping (IPM) can accurately transform images to a BEV.
Three-dimensional objects such as vehicles and vulnerable road users are
distorted by this transformation making it difficult to estimate their position
relative to the sensor. This paper describes a methodology to obtain a
corrected 360{\deg} BEV image given images from multiple vehicle-mounted
cameras. The corrected BEV image is segmented into semantic classes and
includes a prediction of occluded areas. The neural network approach does not
rely on manually labeled data, but is trained on a synthetic dataset in such a
way that it generalizes well to real-world data. By using semantically
segmented images as input, we reduce the reality gap between simulated and
real-world data and are able to show that our method can be successfully
applied in the real world. Extensive experiments conducted on the synthetic
data demonstrate the superiority of our approach compared to IPM. Source code
and datasets are available at https://github.com/ika-rwth-aachen/Cam2BEV
- Abstract(参考訳): 自動走行には正確な環境認識が不可欠である。
単眼カメラを使用する場合、環境中の要素の距離推定は大きな課題となる。
カメラ視点が鳥の目視(BEV)に変換されるとき、距離をより容易に推定することができる。
平面に対して、逆パースペクティブマッピング(IPM)は、画像を正確にBEVに変換することができる。
車両や道路利用者などの3次元物体は、この変換によって歪んでおり、センサに対する位置推定が困難である。
本稿では,複数の車載カメラから得られた画像を補正した360{\deg} BEV画像を得る手法について述べる。
補正されたBEV画像はセマンティッククラスに区分され、隠蔽領域の予測を含む。
ニューラルネットワークのアプローチは、手動のラベル付きデータに頼るのではなく、現実世界のデータにうまく一般化するように、合成データセット上でトレーニングされる。
セグメンテーションされたイメージを入力として使用することにより、シミュレーションと実世界のデータ間の現実的ギャップを減らし、実世界に適用できることを示す。
合成データを用いた大規模な実験は,IMMと比較して,我々のアプローチの優位性を示した。
ソースコードとデータセットはhttps://github.com/ika-rwth-aachen/Cam2BEVで入手できる。
関連論文リスト
- Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - Towards Viewpoint Robustness in Bird's Eye View Segmentation [85.99907496019972]
AV知覚モデルがカメラ視点の変化にどのように影響するかを考察する。
投機時のピッチ、ヨー、深さ、高さへの小さな変化は、大きな性能低下につながる。
本稿では,新しいビュー合成技術を導入し,収集したデータをターゲットリグの視点に変換する手法を提案する。
論文 参考訳(メタデータ) (2023-09-11T02:10:07Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - BEV-Locator: An End-to-end Visual Semantic Localization Network Using
Multi-View Images [13.258689143949912]
マルチビューカメラ画像を用いたエンドツーエンドの視覚的セマンティックローカライゼーションニューラルネットワークを提案する。
BEV-Locatorは、多目的シナリオ下での車両のポーズを推定することができる。
実験では, 平均絶対誤差が0.052m, 0.135m, 0.251$circ$, 横方向, 縦方向の翻訳, 方向角の程度で満足な精度を報告した。
論文 参考訳(メタデータ) (2022-11-27T20:24:56Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Towards Optimal Strategies for Training Self-Driving Perception Models
in Simulation [98.51313127382937]
合成ドメインのみにおけるラベルの使用に焦点を当てる。
提案手法では,ニューラル不変表現の学習方法と,シミュレータからデータをサンプリングする方法に関する理論的にインスピレーションを得た視点を導入する。
マルチセンサーデータを用いた鳥眼視車両分割作業におけるアプローチについて紹介する。
論文 参考訳(メタデータ) (2021-11-15T18:37:43Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - BEV-Seg: Bird's Eye View Semantic Segmentation Using Geometry and
Semantic Point Cloud [21.29622194272066]
我々は,BEVにおける画素単位のセマンティックセマンティックセマンティックセマンティクスを予測するタスクである,鳥の目の意味セマンティクスセマンティクスに着目した。
このタスクには、サイドビューからバードビューへのビュー変換と、未確認領域への学習の移行という2つの大きな課題がある。
新たな2段階認識パイプラインは,画素深度を明示的に予測し,効率よく画素セマンティクスと組み合わせる。
論文 参考訳(メタデータ) (2020-06-19T23:30:11Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z) - Semantic sensor fusion: from camera to sparse lidar information [7.489722641968593]
本稿では,異なる感覚情報,光検出・ランキング(ライダー)スキャン,カメラ画像の融合手法を提案する。
ラベル付き画像とライダー点雲間の意味情報の転送を4ステップで行う。
論文 参考訳(メタデータ) (2020-03-04T03:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。