論文の概要: RopeBEV: A Multi-Camera Roadside Perception Network in Bird's-Eye-View
- arxiv url: http://arxiv.org/abs/2409.11706v1
- Date: Wed, 18 Sep 2024 05:16:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 19:00:08.085297
- Title: RopeBEV: A Multi-Camera Roadside Perception Network in Bird's-Eye-View
- Title(参考訳): RopeBEV:Bird's-Eye-Viewのマルチカメラロードサイド知覚ネットワーク
- Authors: Jinrang Jia, Guangqi Yi, Yifeng Shi,
- Abstract要約: 本稿では,道路側シナリオに対するマルチカメラのBEV知覚における重要な課題を,車両側と比較して体系的に分析する。
RopeBEVは、多様なカメラポーズによるトレーニングバランスの問題に対処するために、BEVの拡張を導入している。
提案手法は,実世界の道路データセットであるRoScenesの1位にランクインする。
- 参考スコア(独自算出の注目度): 3.165441652093544
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-camera perception methods in Bird's-Eye-View (BEV) have gained wide application in autonomous driving. However, due to the differences between roadside and vehicle-side scenarios, there currently lacks a multi-camera BEV solution in roadside. This paper systematically analyzes the key challenges in multi-camera BEV perception for roadside scenarios compared to vehicle-side. These challenges include the diversity in camera poses, the uncertainty in Camera numbers, the sparsity in perception regions, and the ambiguity in orientation angles. In response, we introduce RopeBEV, the first dense multi-camera BEV approach. RopeBEV introduces BEV augmentation to address the training balance issues caused by diverse camera poses. By incorporating CamMask and ROIMask (Region of Interest Mask), it supports variable camera numbers and sparse perception, respectively. Finally, camera rotation embedding is utilized to resolve orientation ambiguity. Our method ranks 1st on the real-world highway dataset RoScenes and demonstrates its practical value on a private urban dataset that covers more than 50 intersections and 600 cameras.
- Abstract(参考訳): Bird's-Eye-View (BEV) におけるマルチカメラ認識手法は、自動運転に広く応用されている。
しかし、道路側と車両側のシナリオの違いにより、現在、道路側ではマルチカメラのBEVソリューションが欠落している。
本稿では,道路側シナリオに対するマルチカメラのBEV知覚における重要な課題を,車両側と比較して体系的に分析する。
これらの課題には、カメラポーズの多様性、カメラナンバーの不確実性、知覚領域の空間性、方向角のあいまいさなどが含まれる。
これに対して,最初の高密度マルチカメラBEVアプローチであるRopeBEVを紹介する。
RopeBEVは、多様なカメラポーズによるトレーニングバランスの問題に対処するために、BEVの拡張を導入している。
CamMaskとROIMask(Region of Interest Mask)を組み込むことで、それぞれ可変カメラ番号とスパース知覚をサポートする。
最後に、カメラ回転埋め込みを利用して方向のあいまいさを解消する。
提案手法は,50以上の交差点と600台のカメラをカバーするプライベートな都市データセットにおいて,実世界のハイウェイデータセットRoScenesの1位にランク付けし,その実用的価値を実証する。
関連論文リスト
- Improved Single Camera BEV Perception Using Multi-Camera Training [4.003066044908734]
大規模生産において、コスト効率は最適化の目標であり、カメラの使用を減らすことがより重要になる。
これにより、低コストのセンサー設定で十分な性能を提供するBEV知覚モデルの開発が問題となる。
本研究の目的は,最新のマルチカメラサラウンドビューモデルを用いて,上記の性能低下を極力低減することである。
論文 参考訳(メタデータ) (2024-09-04T13:06:40Z) - RoadBEV: Road Surface Reconstruction in Bird's Eye View [55.0558717607946]
道路表面の状態、特に幾何学的プロファイルは、自動運転車の走行性能に大きな影響を与え、視覚に基づくオンライン道路再建は、事前に道路情報を確実に捉えている。
Bird's-Eye-View (BEV) の認識は、より信頼性が高く正確な再構築の可能性を秘めている。
本稿では,BEVにおける道路高架化モデルとして,RoadBEV-monoとRoadBEV-stereoの2つのモデルを提案する。
論文 参考訳(メタデータ) (2024-04-09T20:24:29Z) - Multi-camera Bird's Eye View Perception for Autonomous Driving [17.834495597639805]
他のエージェントや構造の空間的推論を可能にするためには、3Dで知覚出力を生成することが不可欠である。
カメラ画像から所望のBEV表現を達成するための最も基本的なアプローチは、平らな地面を仮定してIPMである。
近年のアプローチでは、ディープニューラルネットワークを使用してBEV空間を直接出力している。
論文 参考訳(メタデータ) (2023-09-16T19:12:05Z) - An Efficient Transformer for Simultaneous Learning of BEV and Lane
Representations in 3D Lane Detection [55.281369497158515]
3次元車線検出のための効率的な変圧器を提案する。
バニラ変圧器と異なり、我々のモデルは車線とBEVの表現を同時に学習するクロスアテンション機構を含んでいる。
本手法は,2次元および3次元の車線特徴を画像ビューとBEVの特徴にそれぞれ適用することにより,2次元および3次元車線予測を実現する。
論文 参考訳(メタデータ) (2023-06-08T04:18:31Z) - From a Bird's Eye View to See: Joint Camera and Subject Registration without the Camera Calibration [20.733451121484993]
我々は, カメラキャリブレーションを伴わない鳥眼ビュー(BEV)において, マルチビューカメラと対象登録の新たな課題に取り組む。
マルチパーソンシーンに対して、異なるファーストパーソンビュー(FPV)からの複数のRGBイメージが入力されるだけであるため、これは非常に難しい問題である。
本稿では,この問題を解決するためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-19T08:31:08Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - SVDistNet: Self-Supervised Near-Field Distance Estimation on Surround
View Fisheye Cameras [30.480562747903186]
シーンジオメトリの360deg認識は、特に駐車場や都市部の運転シナリオで、自動運転に不可欠です。
カメラパラメータを条件入力として用いる,新しいカメラジオメトリー適応型マルチスケール畳み込み法を提案する。
魚眼ウッドキャップサラウンドビューデータセットに対する我々のアプローチを評価し,従来のアプローチよりも大幅に改善した。
論文 参考訳(メタデータ) (2021-04-09T15:20:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。