論文の概要: BEV-MODNet: Monocular Camera based Bird's Eye View Moving Object
Detection for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2107.04937v1
- Date: Sun, 11 Jul 2021 01:11:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 15:48:09.356554
- Title: BEV-MODNet: Monocular Camera based Bird's Eye View Moving Object
Detection for Autonomous Driving
- Title(参考訳): BEV-MODNet:自律走行のための単眼カメラによる鳥の視線移動物体検出
- Authors: Hazem Rashed, Mariam Essam, Maha Mohamed, Ahmad El Sallab and Senthil
Yogamani
- Abstract要約: CNNは、現場のグローバルコンテキストを活用して、より良いプロジェクトを作成することができる。
我々は、BEV空間内で5つのクラスを移動するオブジェクトマスクのアノテーションを備えた12.9k画像からなる拡張KITTI-rawデータセットを作成する。
簡単なベースライン実装を用いてmIoUの13%の大幅な改善を観測した。
- 参考スコア(独自算出の注目度): 2.9769485817170387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detection of moving objects is a very important task in autonomous driving
systems. After the perception phase, motion planning is typically performed in
Bird's Eye View (BEV) space. This would require projection of objects detected
on the image plane to top view BEV plane. Such a projection is prone to errors
due to lack of depth information and noisy mapping in far away areas. CNNs can
leverage the global context in the scene to project better. In this work, we
explore end-to-end Moving Object Detection (MOD) on the BEV map directly using
monocular images as input. To the best of our knowledge, such a dataset does
not exist and we create an extended KITTI-raw dataset consisting of 12.9k
images with annotations of moving object masks in BEV space for five classes.
The dataset is intended to be used for class agnostic motion cue based object
detection and classes are provided as meta-data for better tuning. We design
and implement a two-stream RGB and optical flow fusion architecture which
outputs motion segmentation directly in BEV space. We compare it with inverse
perspective mapping of state-of-the-art motion segmentation predictions on the
image plane. We observe a significant improvement of 13% in mIoU using the
simple baseline implementation. This demonstrates the ability to directly learn
motion segmentation output in BEV space. Qualitative results of our baseline
and the dataset annotations can be found in
https://sites.google.com/view/bev-modnet.
- Abstract(参考訳): 移動物体の検出は、自律運転システムにおいて非常に重要なタスクである。
知覚フェーズの後、動作計画は通常バードアイビュー(BEV)空間で行われる。
これは、画像平面上で検出されたオブジェクトをトップビューのBEV平面に投影する必要がある。
このようなプロジェクションは、深度情報や遠方でのノイズマッピングの欠如によってエラーを起こしやすい。
CNNは、現場のグローバルコンテキストを活用して、より良いプロジェクトを作成することができる。
本研究では,モノクル画像を直接入力として,BEVマップ上での終端移動物体検出(MOD)について検討する。
我々の知る限り、そのようなデータセットは存在せず、5つのクラスのためにBEV空間で動くオブジェクトマスクのアノテーションを備えた12.9k画像からなる拡張KITTI-rawデータセットを作成します。
データセットはクラスに依存しないモーションキューベースのオブジェクト検出に使用され、クラスはチューニングを改善するためにメタデータとして提供される。
我々は,bev空間内で直接動作セグメンテーションを出力する2ストリームrgbとオプティカルフロー融合アーキテクチャを設計し実装する。
画像平面上での最先端動作分割予測の逆視点マッピングと比較する。
簡単なベースライン実装を用いてmIoUの13%の大幅な改善を観測した。
これは、bev空間で動きのセグメンテーション出力を直接学習する能力を示している。
私たちのベースラインとデータセットのアノテーションの質的な結果は、https://sites.google.com/view/bev-modnetで確認できます。
関連論文リスト
- CV-MOS: A Cross-View Model for Motion Segmentation [13.378850442525945]
本稿では,移動物体セグメンテーションのためのクロスビューモデルCV-MOSを紹介する。
BEV と RV の残差マップから動きを捉えることで空間時空間情報を分離する。
提案手法は,SemanticKittiデータセットの検証とテストセットにおいて,IoU(%)スコアが77.5%,79.2%に達した。
論文 参考訳(メタデータ) (2024-08-25T09:39:26Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - Estimation of Appearance and Occupancy Information in Birds Eye View
from Surround Monocular Images [2.69840007334476]
Birds-eye View (BEV)は、トップダウンビューから、エゴ車両フレーム内の異なる交通参加者の位置を表す。
360デグ視野(FOV)をカバーするモノクラーカメラのアレイから、様々な交通参加者の外観や占有情報をキャプチャする新しい表現を提案する。
我々は、すべてのカメラ画像の学習画像埋め込みを使用して、シーンの外観と占有度の両方をキャプチャする瞬間に、シーンのBEVを生成する。
論文 参考訳(メタデータ) (2022-11-08T20:57:56Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - "The Pedestrian next to the Lamppost" Adaptive Object Graphs for Better
Instantaneous Mapping [45.94778766867247]
1つの画像から意味的に区切られた鳥の目視マップを推定することは、自律的な制御とナビゲーションの一般的な技術となっている。
カメラからの距離による位置推定誤差の増加を示す。
本稿では,物体の空間的推論により,BEV物体を単眼画像から予測するグラフニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:23:13Z) - LiMoSeg: Real-time Bird's Eye View based LiDAR Motion Segmentation [8.184561295177623]
本稿では,光検出・ラング(LiDAR)データの動作セグメント化のための新しいリアルタイムアーキテクチャを提案する。
我々は2D Birdのアイビュー表現における2つの連続したLiDARデータをスキャンし、静的または移動としてピクセルワイズ分類を行う。
Nvidia Jetson Xavierという,一般的に使用されている自動車組み込みプラットフォーム上では,低レイテンシの8ミリ秒を実証する。
論文 参考訳(メタデータ) (2021-11-08T23:40:55Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。