論文の概要: TopView: Vectorising road users in a bird's eye view from uncalibrated street-level imagery with deep learning
- arxiv url: http://arxiv.org/abs/2412.16229v1
- Date: Wed, 18 Dec 2024 21:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:55.525059
- Title: TopView: Vectorising road users in a bird's eye view from uncalibrated street-level imagery with deep learning
- Title(参考訳): TopView: 深層学習による未分類ストリートレベルの画像から鳥の視線で道路利用者をベクター化する
- Authors: Mohamed R Ibrahim,
- Abstract要約: 本研究では、カメラの内在的・外在的パラメータを事前に把握せずに、画像から鳥の視線を推定するための簡単なアプローチを提案する。
このフレームワークは、カメラフィードからライブマップを生成し、都市規模での社会的距離違反を分析するために、いくつかのアプリケーションに適用されている。
- 参考スコア(独自算出の注目度): 2.7195102129095003
- License:
- Abstract: Generating a bird's eye view of road users is beneficial for a variety of applications, including navigation, detecting agent conflicts, and measuring space occupancy, as well as the ability to utilise the metric system to measure distances between different objects. In this research, we introduce a simple approach for estimating a bird's eye view from images without prior knowledge of a given camera's intrinsic and extrinsic parameters. The model is based on the orthogonal projection of objects from various fields of view to a bird's eye view by learning the vanishing point of a given scene. Additionally, we utilised the learned vanishing point alongside the trajectory line to transform the 2D bounding boxes of road users into 3D bounding information. The introduced framework has been applied to several applications to generate a live Map from camera feeds and to analyse social distancing violations at the city scale. The introduced framework shows a high validation in geolocating road users in various uncalibrated cameras. It also paves the way for new adaptations in urban modelling techniques and simulating the built environment accurately, which could benefit Agent-Based Modelling by relying on deep learning and computer vision.
- Abstract(参考訳): 道路利用者の鳥の視線を生成することは、ナビゲーション、エージェントコンフリクトの検出、空間占有率の測定、および異なる物体間の距離を測定するためにメートル法を利用する能力など、様々な用途に有用である。
本研究では,カメラの内在的・外在的パラメータを事前に把握せずに,画像から鳥の視線を推定するための簡単なアプローチを提案する。
モデルは、様々な視点から鳥の視線への物体の直交射影に基づいて、与えられたシーンの消滅点を学習する。
さらに,道路利用者の2次元境界ボックスを3次元境界情報に変換するために,軌道に沿って学習された消滅点を利用した。
導入されたフレームワークは、カメラフィードからライブマップを生成し、都市規模での社会的距離違反を分析するために、いくつかのアプリケーションに適用されている。
導入したフレームワークは、様々な未校正カメラで道路利用者の位置決めに高い妥当性を示す。
また、都市モデリング技術の新たな適応方法と、構築された環境を正確にシミュレートすることで、ディープラーニングとコンピュータビジョンに頼ることでエージェントベースモデリングの恩恵を受けることができる。
関連論文リスト
- Visualizing Routes with AI-Discovered Street-View Patterns [4.153397474276339]
本稿では,視覚的特徴の定量化にセマンティック潜在ベクトルを用いる手法を提案する。
街路ビュー画像の集合間の画像類似度を計算し,空間像パターンの探索を行う。
インタラクティブな可視化プロトタイプであるVivaRoutesを紹介し、これらのパターンで視覚化がどのように活用され、ユーザーが複数のルートを効果的かつインタラクティブに探索するのに役立つかを示す。
論文 参考訳(メタデータ) (2024-03-30T17:32:26Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Monocular BEV Perception of Road Scenes via Front-to-Top View Projection [57.19891435386843]
本稿では,鳥の目視で道路配置と車両占有率によって形成された局所地図を再構築する新しい枠組みを提案する。
我々のモデルは1つのGPU上で25FPSで動作し、リアルタイムパノラマHDマップの再構築に有効である。
論文 参考訳(メタデータ) (2022-11-15T13:52:41Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Disentangling and Vectorization: A 3D Visual Perception Approach for
Autonomous Driving Based on Surround-View Fisheye Cameras [3.485767750936058]
多次元ベクトルは、異なる次元と段階で生成される有効情報を含むことが提案されている。
実魚眼画像実験により,本手法は実時間で最先端の精度を達成できることが実証された。
論文 参考訳(メタデータ) (2021-07-19T13:24:21Z) - Weak Multi-View Supervision for Surface Mapping Estimation [0.9367260794056769]
密接なアノテーションを使わずにカテゴリ別表面マッピングを学習する,弱監督型マルチビュー学習手法を提案する。
人間の顔、車、飛行機といった一般的なカテゴリの基盤となる表面形状を、それらのカテゴリの例から学習する。
論文 参考訳(メタデータ) (2021-05-04T09:46:26Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Predicting Semantic Map Representations from Images using Pyramid
Occupancy Networks [27.86228863466213]
単一エンドツーエンドのディープラーニングアーキテクチャを用いて,単分子画像から直接マップを推定する,シンプルで統一的なアプローチを提案する。
提案手法の有効性を,NuScenesとArgoverseデータセット上のいくつかの挑戦的ベースラインに対して評価することで実証する。
論文 参考訳(メタデータ) (2020-03-30T12:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。