論文の概要: 2.5D Object Detection for Intelligent Roadside Infrastructure
- arxiv url: http://arxiv.org/abs/2507.03564v1
- Date: Fri, 04 Jul 2025 13:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.783936
- Title: 2.5D Object Detection for Intelligent Roadside Infrastructure
- Title(参考訳): インテリジェント道路インフラのための2.5次元物体検出
- Authors: Nikolai Polley, Yacin Boualili, Ferdinand Mütsch, Maximilian Zipfl, Tobias Fleck, J. Marius Zöllner,
- Abstract要約: インフラ路面カメラのための2.5Dオブジェクト検出フレームワークを提案する。
画像フレーム内の平行図として車両の地上面を検出するための予測手法を用いる。
以上の結果から, 高い検出精度, 強い対面一般化, 各種照明および気象条件に対する堅牢性が確認された。
- 参考スコア(独自算出の注目度): 37.07785188366053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-board sensors of autonomous vehicles can be obstructed, occluded, or limited by restricted fields of view, complicating downstream driving decisions. Intelligent roadside infrastructure perception systems, installed at elevated vantage points, can provide wide, unobstructed intersection coverage, supplying a complementary information stream to autonomous vehicles via vehicle-to-everything (V2X) communication. However, conventional 3D object-detection algorithms struggle to generalize under the domain shift introduced by top-down perspectives and steep camera angles. We introduce a 2.5D object detection framework, tailored specifically for infrastructure roadside-mounted cameras. Unlike conventional 2D or 3D object detection, we employ a prediction approach to detect ground planes of vehicles as parallelograms in the image frame. The parallelogram preserves the planar position, size, and orientation of objects while omitting their height, which is unnecessary for most downstream applications. For training, a mix of real-world and synthetically generated scenes is leveraged. We evaluate generalizability on a held-out camera viewpoint and in adverse-weather scenarios absent from the training set. Our results show high detection accuracy, strong cross-viewpoint generalization, and robustness to diverse lighting and weather conditions. Model weights and inference code are provided at: https://gitlab.kit.edu/kit/aifb/ATKS/public/digit4taf/2.5d-object-detection
- Abstract(参考訳): 自動運転車のオンボードセンサーは、下流の運転決定を複雑にし、視野が制限されたり、制限されたりすることができる。
高度バンテージポイントに設置されたインテリジェントな道路インフラストラクチャ認識システムは、広範かつ非障害物な交差点カバレッジを提供し、V2X通信を介して自動運転車に補完的な情報ストリームを提供する。
しかし、従来の3Dオブジェクト検出アルゴリズムは、トップダウン視点と急勾配カメラアングルによって導入された領域シフトの下で一般化に苦慮している。
本稿では,道路面搭載カメラに特化された2.5Dオブジェクト検出フレームワークを提案する。
従来の2次元や3次元の物体検出とは異なり、画像フレーム内の平行図として車両の地上面を検出するための予測手法を用いる。
平行図は、ほとんどの下流アプリケーションでは不要な高さを省きながら、物体の平面的位置、大きさ、配向を保存する。
トレーニングには、実世界のシーンと合成されたシーンの混合が活用される。
トレーニングセットから外れたカメラ視点および悪天候シナリオにおける一般化可能性を評価する。
以上の結果から, 高い検出精度, 強い対面一般化, 各種照明および気象条件に対する堅牢性が確認された。
https://gitlab.kit.edu/kit/aifb/ATKS/public/digit4taf/2.5d-object-detection
関連論文リスト
- Vision-based Lifting of 2D Object Detections for Automated Driving [8.321333802704446]
本稿では,既存のビジョンベース2Dアルゴリズムの結果を,カメラのみを用いた3次元検出に引き上げるパイプラインを提案する。
我々の知る限りでは、我々は初めて2D CNNを使用して、2D検出毎にポイントクラウドを処理し、計算労力を可能な限り低くする。
論文 参考訳(メタデータ) (2025-06-13T14:40:12Z) - DriveGEN: Generalized and Robust 3D Detection in Driving via Controllable Text-to-Image Diffusion Generation [49.32104127246474]
DriveGENは、トレーニング不要のテキストから画像への拡散生成である。
様々なアウト・オブ・ディストリビューション世代にまたがる正確な3D形状のオブジェクトを一貫して保存する。
論文 参考訳(メタデータ) (2025-03-14T06:35:38Z) - HeightFormer: A Semantic Alignment Monocular 3D Object Detection Method from Roadside Perspective [11.841338298700421]
本研究では,空間的前駆体とVoxel Pooling formerを統合した3次元物体検出フレームワークを提案する。
Rope3DとDAIR-V2X-Iデータセットを用いて実験を行い、提案アルゴリズムが車とサイクリストの両方を検知する際の性能を実証した。
論文 参考訳(メタデータ) (2024-10-10T09:37:33Z) - MonoGAE: Roadside Monocular 3D Object Detection with Ground-Aware
Embeddings [29.050983641961658]
そこで我々は,モノGAEという,地表面認識による道路面モノクロ3次元物体検出のための新しいフレームワークを提案する。
提案手法は,道路側カメラの広範に認識されている3次元検出ベンチマークにおいて,従来のモノクル3次元物体検出器と比較して,かなりの性能上の優位性を示す。
論文 参考訳(メタデータ) (2023-09-30T14:52:26Z) - Aerial Monocular 3D Object Detection [67.20369963664314]
DVDETは2次元画像空間と3次元物理空間の両方で空中単分子3次元物体検出を実現するために提案される。
高度視差変形問題に対処するため,新しい測地変形変換モジュールを提案する。
より多くの研究者がこの領域を調査するよう促すため、データセットと関連するコードをリリースします。
論文 参考訳(メタデータ) (2022-08-08T08:32:56Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - Weakly Supervised Training of Monocular 3D Object Detectors Using Wide
Baseline Multi-view Traffic Camera Data [19.63193201107591]
交差点における車両の7DoF予測は,道路利用者間の潜在的な衝突を評価する上で重要な課題である。
交通監視カメラ用3次元物体検出装置の微調整を弱教師付きで行う手法を開発した。
提案手法は,自動運転車のデータセット上で最上位のモノクル3Dオブジェクト検出器と同等の精度で車両の7DoFの予測精度を推定する。
論文 参考訳(メタデータ) (2021-10-21T08:26:48Z) - Train in Germany, Test in The USA: Making 3D Object Detectors Generalize [59.455225176042404]
ディープラーニングにより、LiDARやステレオカメラデータなどの3Dオブジェクト検出精度が大幅に向上した。
自動運転のためのほとんどのデータセットは、1つの国内の都市の狭い部分で収集される。
本稿では,あるデータセットから別のデータセットに3Dオブジェクト検出器を適応させる作業について考察する。
論文 参考訳(メタデータ) (2020-05-17T00:56:18Z) - Road Curb Detection and Localization with Monocular Forward-view Vehicle
Camera [74.45649274085447]
魚眼レンズを装着した校正単眼カメラを用いて3Dパラメータを推定するロバストな手法を提案する。
我々のアプローチでは、車両が90%以上の精度で、リアルタイムで距離を抑えることができる。
論文 参考訳(メタデータ) (2020-02-28T00:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。