論文の概要: Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers
- arxiv url: http://arxiv.org/abs/2408.12575v2
- Date: Mon, 30 Sep 2024 13:30:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 05:37:29.213881
- Title: Enhanced Parking Perception by Multi-Task Fisheye Cross-view Transformers
- Title(参考訳): マルチタスク魚眼クロスビュー変換器による駐車知覚の強化
- Authors: Antonyo Musabini, Ivan Novikov, Sana Soula, Christel Leonet, Lihao Wang, Rachid Benmokhtar, Fabian Burger, Thomas Boulay, Xavier Perrotton,
- Abstract要約: 現在の駐車エリア認識アルゴリズムは、主に限られた範囲内の空きスロットを検出することに焦点を当てている。
本稿では,Multi-Task Fisheye Cross View Transformers (MT F-CVT)を紹介する。
MT F-CVTは25m×25mの実際のオープンロードシーンにオブジェクトを配置し、平均誤差は20cmである。
- 参考スコア(独自算出の注目度): 1.1227698959066101
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current parking area perception algorithms primarily focus on detecting vacant slots within a limited range, relying on error-prone homographic projection for both labeling and inference. However, recent advancements in Advanced Driver Assistance System (ADAS) require interaction with end-users through comprehensive and intelligent Human-Machine Interfaces (HMIs). These interfaces should present a complete perception of the parking area going from distinguishing vacant slots' entry lines to the orientation of other parked vehicles. This paper introduces Multi-Task Fisheye Cross View Transformers (MT F-CVT), which leverages features from a four-camera fisheye Surround-view Camera System (SVCS) with multihead attentions to create a detailed Bird-Eye View (BEV) grid feature map. Features are processed by both a segmentation decoder and a Polygon-Yolo based object detection decoder for parking slots and vehicles. Trained on data labeled using LiDAR, MT F-CVT positions objects within a 25m x 25m real open-road scenes with an average error of only 20 cm. Our larger model achieves an F-1 score of 0.89. Moreover the smaller model operates at 16 fps on an Nvidia Jetson Orin embedded board, with similar detection results to the larger one. MT F-CVT demonstrates robust generalization capability across different vehicles and camera rig configurations. A demo video from an unseen vehicle and camera rig is available at: https://streamable.com/jjw54x.
- Abstract(参考訳): 現在の駐車エリア認識アルゴリズムは、主に、ラベリングと推論の両方においてエラーを起こしやすいホモグラフ投影に依存する、限られた範囲内の空きスロットの検出に焦点を当てている。
しかし、最近のADAS(Advanced Driver Assistance System)の進歩は、包括的でインテリジェントなHuman-Machine Interfaces (HMI)を通してエンドユーザーとのインタラクションを必要とする。
これらのインターフェースは、空きスロットの入口線を他の駐車車両の向きに区別することから、駐車エリアの完全な認識を与えるべきである。
本稿では,4カメラの魚眼Surround-view Camera System(SVCS)の機能を活用し,BEVグリッド機能マップを作成するマルチタスク魚眼Cross View Transformers (MT F-CVT)を提案する。
特徴は、駐車場や車両用のセグメンテーションデコーダとポリゴン・ヨロをベースとしたオブジェクト検出デコーダによって処理される。
LiDARでラベル付けされたデータに基づいて、MT F-CVTはオブジェクトを25m×25mの実際のオープンロードシーン内に配置し、平均誤差は20cmである。
我々のより大きなモデルでは、F-1スコアは0.89である。
さらに、小さなモデルはNvidia Jetson Orinの組み込みボード上で16fpsで動作する。
MT F-CVTは、異なる車両とカメラリグ構成にまたがる堅牢な一般化能力を示す。
未確認の車両とカメラリグのデモビデオは、https://streamable.com/jjw54x.comで公開されている。
関連論文リスト
- RoboSense: Large-scale Dataset and Benchmark for Multi-sensor Low-speed Autonomous Driving [62.5830455357187]
本稿では,3種類のセンサ(Camera, LiDAR, Fisheye)をベースとしたマルチモーダルデータ収集プラットフォームを構築する。
RoboSenseという名前の大規模なマルチセンサーデータセットが構築されており、ニアフィールドシーンの理解を容易にする。
RoboSenseは、1133K以上の同期データと1.4Mの3DバウンディングボックスとIDをフル360円のビューに格納し、7.6Kの時間シーケンスに216Kのトラジェクトリを形成する。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - Holistic Parking Slot Detection with Polygon-Shaped Representations [1.1649926489639983]
本稿では,YOLO(You Only Look Once)v4アルゴリズムを適応した一段階のHPS-Netを提案する。
実験の結果、HPS-NetはF1スコア0.92で様々な空き駐車場を検知できることがわかった。
Nvidia Drive AGX Xavierで17 FPSのリアルタイム検出速度を実現している。
論文 参考訳(メタデータ) (2023-10-17T23:37:23Z) - Multi-target multi-camera vehicle tracking using transformer-based
camera link model and spatial-temporal information [29.34298951501007]
複数のカメラにまたがる車両の多目的マルチカメラ追跡は、スマートシティとインテリジェントな交通システムを開発する上で重要な応用である。
車両のMTMCTの主な課題は、同一車両のクラス内変動と異なる車両間のクラス間類似性である。
クロスカメラトラッキングを実現するために,空間的・時間的フィルタリングを用いたトランスフォーマーベースカメラリンクモデルを提案する。
論文 参考訳(メタデータ) (2023-01-18T22:27:08Z) - PersFormer: 3D Lane Detection via Perspective Transformer and the
OpenLane Benchmark [109.03773439461615]
PersFormerは、新しいトランスフォーマーベースの空間特徴変換モジュールを備えた、エンドツーエンドのモノクル3Dレーン検出器である。
高品質なアノテーションとシナリオの多様性を備えたOpenLaneと呼ばれる,最初の大規模な3Dレーンデータセットの1つをリリースしました。
論文 参考訳(メタデータ) (2022-03-21T16:12:53Z) - City-Scale Multi-Camera Vehicle Tracking Guided by Crossroad Zones [28.922703073971466]
本稿では,2021年AIシティチャレンジ(AICITY21)におけるトラック3多カメラ車両追跡タスクのソリューションについて述べる。
フレームワークには以下のものがある。
成熟した検出と車両再識別モデルを使用して、ターゲットと外観の特徴を抽出します。
交差路の特性により,トラックレットフィルタ戦略と方向に基づくテンポラリマスクを提案する。
論文 参考訳(メタデータ) (2021-05-14T03:01:17Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z) - OmniDet: Surround View Cameras based Multi-task Visual Perception
Network for Autonomous Driving [10.3540046389057]
本研究は,未修正魚眼画像のマルチタスク視覚知覚ネットワークを提案する。
自動運転システムに必要な6つの主要なタスクで構成されている。
共同で訓練されたモデルは、それぞれのタスクバージョンよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-02-15T10:46:24Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z) - MVLidarNet: Real-Time Multi-Class Scene Understanding for Autonomous
Driving Using Multiple Views [60.538802124885414]
マルチビューLidarNet(MVLidarNet)は,多層物体検出とドライビング空間分割のための2段階のディープニューラルネットワークである。
MVLidarNetは、単一のLiDARスキャンを入力として、乾燥可能な空間を同時に決定しながら、オブジェクトを検出し、分類することができる。
我々は、KITTIとはるかに大きな内部データセットの両方で結果を示し、その方法が桁違いにスケールできることを実証する。
論文 参考訳(メタデータ) (2020-06-09T21:28:17Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z) - Road Curb Detection and Localization with Monocular Forward-view Vehicle
Camera [74.45649274085447]
魚眼レンズを装着した校正単眼カメラを用いて3Dパラメータを推定するロバストな手法を提案する。
我々のアプローチでは、車両が90%以上の精度で、リアルタイムで距離を抑えることができる。
論文 参考訳(メタデータ) (2020-02-28T00:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。