論文の概要: BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment
- arxiv url: http://arxiv.org/abs/2410.20969v1
- Date: Mon, 28 Oct 2024 12:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:21:21.034435
- Title: BEVPose: Unveiling Scene Semantics through Pose-Guided Multi-Modal BEV Alignment
- Title(参考訳): BEVPose:Pose-Guided Multi-Modal BEVアライメントによるシーンセマンティクスの展開
- Authors: Mehdi Hosseinzadeh, Ian Reid,
- Abstract要約: 本稿では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として用いた。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
- 参考スコア(独自算出の注目度): 8.098296280937518
- License:
- Abstract: In the field of autonomous driving and mobile robotics, there has been a significant shift in the methods used to create Bird's Eye View (BEV) representations. This shift is characterised by using transformers and learning to fuse measurements from disparate vision sensors, mainly lidar and cameras, into a 2D planar ground-based representation. However, these learning-based methods for creating such maps often rely heavily on extensive annotated data, presenting notable challenges, particularly in diverse or non-urban environments where large-scale datasets are scarce. In this work, we present BEVPose, a framework that integrates BEV representations from camera and lidar data, using sensor pose as a guiding supervisory signal. This method notably reduces the dependence on costly annotated data. By leveraging pose information, we align and fuse multi-modal sensory inputs, facilitating the learning of latent BEV embeddings that capture both geometric and semantic aspects of the environment. Our pretraining approach demonstrates promising performance in BEV map segmentation tasks, outperforming fully-supervised state-of-the-art methods, while necessitating only a minimal amount of annotated data. This development not only confronts the challenge of data efficiency in BEV representation learning but also broadens the potential for such techniques in a variety of domains, including off-road and indoor environments.
- Abstract(参考訳): 自律運転とモバイルロボティクスの分野では、バードアイビュー(BEV)表現を作成するために使用される方法に大きな変化があった。
このシフトは、トランスフォーマーと学習を用いて、主にライダーやカメラといった異なる視覚センサーから2次元平面的な地上表現に計測を融合させることによって特徴づけられる。
しかし、このような地図を作成するための学習ベースの手法は、大規模なデータセットが不足している多種多様な環境や非都市環境において、大きなアノテートされたデータに大きく依存することが多い。
本研究では,カメラとライダーデータからBEV表現を統合するフレームワークであるBEVPoseについて,センサポーズを誘導監視信号として利用する。
この方法は、高価な注釈付きデータへの依存を顕著に減らす。
ポーズ情報を活用することで,環境の幾何学的側面と意味的側面の両方を捉えた潜在的BEV埋め込みの学習を容易にし,マルチモーダルな感覚入力を調整・融合する。
我々の事前学習手法は, BEVマップセグメンテーションタスクにおいて有望な性能を示し, 最小限のアノテートデータしか必要とせず, 完全に教師付きされた最先端の手法よりも優れていた。
この開発は、BEV表現学習におけるデータ効率の課題に直面するだけでなく、オフロードや屋内環境を含む様々な領域において、そのような技術の可能性を広げている。
関連論文リスト
- Learning Content-Aware Multi-Modal Joint Input Pruning via Bird's-Eye-View Representation [11.074747442071729]
本稿では,コンテンツ対応型マルチモーダルジョイントプルーニング手法を提案する。
我々は,NuScenesデータセットの広範な実験を通じて,アプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-10-09T03:30:00Z) - OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Diffusion-Based Particle-DETR for BEV Perception [94.88305708174796]
Bird-Eye-View (BEV)は、自律走行車(AV)における視覚知覚のための最も広く使われているシーンの1つである。
近年の拡散法は、視覚知覚のための不確実性モデリングに有望なアプローチを提供するが、BEVの広い範囲において、小さな物体を効果的に検出することができない。
本稿では,BEVにおける拡散パラダイムと最先端の3Dオブジェクト検出器を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-18T09:52:14Z) - Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation [13.013635162859108]
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
論文 参考訳(メタデータ) (2023-04-07T13:52:47Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Bird's-Eye-View Panoptic Segmentation Using Monocular Frontal View
Images [4.449481309681663]
本研究では,Bird's-Eye-View (BEV) マップにおいて,高密度パノプティックセグメンテーションマップを直接予測するエンド・ツー・エンドの学習手法を提案する。
私たちのアーキテクチャはトップダウンパラダイムに従っており、新しい高密度トランスモジュールを組み込んでいます。
我々は、FV-BEV変換の感度を数学的に定式化し、BEV空間のピクセルをインテリジェントに重み付けすることができる。
論文 参考訳(メタデータ) (2021-08-06T17:59:11Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。