論文の概要: Camera Perspective Transformation to Bird's Eye View via Spatial Transformer Model for Road Intersection Monitoring
- arxiv url: http://arxiv.org/abs/2408.05577v2
- Date: Wed, 14 Aug 2024 02:20:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 12:22:42.461563
- Title: Camera Perspective Transformation to Bird's Eye View via Spatial Transformer Model for Road Intersection Monitoring
- Title(参考訳): 道路横断監視のための空間変換器モデルによる鳥眼視へのカメラパースペクティブ・トランスフォーメーション
- Authors: Rukesh Prajapati, Amr S. El-Wakeel,
- Abstract要約: 道路交差点の監視と制御の研究は、しばしば鳥の目視(BEV)シミュレータを利用する。
実際の交通状況では、シミュレーターと同様のBEVを達成するには、ドローンや特定のセンサーを配置する必要がある。
道路交差点の1台のカメラの視点をBEVに変換する新しいディープラーニングモデルを提案する。
- 参考スコア(独自算出の注目度): 0.09208007322096533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Road intersection monitoring and control research often utilize bird's eye view (BEV) simulators. In real traffic settings, achieving a BEV akin to that in a simulator necessitates the deployment of drones or specific sensor mounting, which is neither feasible nor practical. Consequently, traffic intersection management remains confined to simulation environments given these constraints. In this paper, we address the gap between simulated environments and real-world implementation by introducing a novel deep-learning model that converts a single camera's perspective of a road intersection into a BEV. We created a simulation environment that closely resembles a real-world traffic junction. The proposed model transforms the vehicles into BEV images, facilitating road intersection monitoring and control model processing. Inspired by image transformation techniques, we propose a Spatial-Transformer Double Decoder-UNet (SDD-UNet) model that aims to eliminate the transformed image distortions. In addition, the model accurately estimates the vehicle's positions and enables the direct application of simulation-trained models in real-world contexts. SDD-UNet model achieves an average dice similarity coefficient (DSC) above 95% which is 40% better than the original UNet model. The mean absolute error (MAE) is 0.102 and the centroid of the predicted mask is 0.14 meters displaced, on average, indicating high accuracy.
- Abstract(参考訳): 道路交差点の監視と制御の研究は、しばしば鳥の目視(BEV)シミュレータを利用する。
実際の交通状況では、シミュレーターに類似したBEVを達成するには、ドローンや特定のセンサーを配置する必要があるが、これは実現不可能でも実用的でもない。
その結果,交通交差点の管理はこれらの制約からシミュレーション環境に限られている。
本稿では,道路交差点の1台のカメラの視点をBEVに変換する新しいディープラーニングモデルを導入することにより,シミュレーション環境と実世界の実装のギャップを解消する。
我々は現実世界の交通ジャンクションによく似たシミュレーション環境を構築した。
提案モデルでは,車両をBEV画像に変換し,道路交差点の監視と制御モデル処理を容易にする。
画像変換技術に着想を得た空間変換器Double Decoder-UNet(SDD-UNet)モデルを提案する。
さらに,車両の位置を正確に推定し,実環境におけるシミュレーション学習モデルの直接適用を可能にする。
SDD-UNetモデルは、元のUNetモデルよりも40%良い95%以上の平均サイス類似係数(DSC)を達成する。
平均絶対誤差(MAE)は0.102であり、予測マスクのセントロイドは平均0.14mずれており、精度が高い。
関連論文リスト
- Data-Driven Traffic Simulation for an Intersection in a Metropolis [7.264786765085108]
道路交差点における交通をモデル化するための新しいデータ駆動シミュレーション環境を提案する。
エージェントの相互作用と環境制約を学習するために,軌道予測モデルを訓練する。
シミュレーションは、自律的に、または、生成分布に条件付けされた明示的な人間の制御の下で実行することができる。
論文 参考訳(メタデータ) (2024-08-01T22:25:06Z) - XLD: A Cross-Lane Dataset for Benchmarking Novel Driving View Synthesis [84.23233209017192]
本稿では,自律走行シミュレーションに特化して設計された新しい駆動ビュー合成データセットとベンチマークを提案する。
データセットには、トレーニング軌跡から1-4mずれて取得した画像のテストが含まれているため、ユニークなものだ。
我々は、フロントオンリーおよびマルチカメラ設定下で、既存のNVSアプローチを評価するための最初の現実的なベンチマークを確立する。
論文 参考訳(メタデータ) (2024-06-26T14:00:21Z) - On Transferability of Driver Observation Models from Simulated to Real
Environments in Autonomous Cars [23.514129229090987]
本稿では,シミュレーションから実環境シナリオへの映像に基づく運転観察モデル移行の実現可能性について検討する。
我々は、実際の自律運転条件を特徴とするデータセットを記録し、高い注意をそらす二次活動に従事する7人の参加者を巻き込んだ。
我々のデータセットは、トレーニングソースとして使用されている既存の大規模シミュレータデータセットに従って設計されている。
論文 参考訳(メタデータ) (2023-07-31T10:18:49Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Imagining The Road Ahead: Multi-Agent Trajectory Prediction via
Differentiable Simulation [17.953880589741438]
軌道予測のための完全微分可能なシミュレータを用いた深部生成モデルを開発した。
本稿では,標準ニューラルアーキテクチャと標準変動訓練目標を用いて,インタラクションデータセットの最先端の結果を得る。
Imagining the Road Ahead" からモデル ITRA と命名した。
論文 参考訳(メタデータ) (2021-04-22T17:48:08Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - A Sim2Real Deep Learning Approach for the Transformation of Images from
Multiple Vehicle-Mounted Cameras to a Semantically Segmented Image in Bird's
Eye View [0.0]
カメラの視点を鳥の視線(BEV)に変換すると、距離をより容易に推定できる。
本稿では,複数の車載カメラから補正された360度BEV画像を得る方法について述べる。
ニューラルネットワークのアプローチは、手動でラベル付けされたデータに頼るのではなく、実世界のデータに対してうまく一般化するように、合成データセットでトレーニングされる。
論文 参考訳(メタデータ) (2020-05-08T14:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。