論文の概要: IndoorBEV: Joint Detection and Footprint Completion of Objects via Mask-based Prediction in Indoor Scenarios for Bird's-Eye View Perception
- arxiv url: http://arxiv.org/abs/2507.17445v1
- Date: Wed, 23 Jul 2025 12:07:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.980316
- Title: IndoorBEV: Joint Detection and Footprint Completion of Objects via Mask-based Prediction in Indoor Scenarios for Bird's-Eye View Perception
- Title(参考訳): IndoorBEV:鳥類の視点知覚のための屋内シナリオにおけるマスクによる物体の関節検出とフットプリント完了
- Authors: Haichuan Li, Changda Tian, Panos Trahanias, Tomi Westerlund,
- Abstract要約: 室内移動ロボットのための新しいマスクベースのBird's-Eye View(BEV)手法であるIndoorBEVを提案する。
3Dシーンは、2次元のBEVグリッドに投影され、自然の閉塞を処理し、一貫したトップダウンビューを提供する。
IndoorBEVの多様なオブジェクトクラスを特徴とする屋内カスタムデータセットにおける有効性を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting diverse objects within complex indoor 3D point clouds presents significant challenges for robotic perception, particularly with varied object shapes, clutter, and the co-existence of static and dynamic elements where traditional bounding box methods falter. To address these limitations, we propose IndoorBEV, a novel mask-based Bird's-Eye View (BEV) method for indoor mobile robots. In a BEV method, a 3D scene is projected into a 2D BEV grid which handles naturally occlusions and provides a consistent top-down view aiding to distinguish static obstacles from dynamic agents. The obtained 2D BEV results is directly usable to downstream robotic tasks like navigation, motion prediction, and planning. Our architecture utilizes an axis compact encoder and a window-based backbone to extract rich spatial features from this BEV map. A query-based decoder head then employs learned object queries to concurrently predict object classes and instance masks in the BEV space. This mask-centric formulation effectively captures the footprint of both static and dynamic objects regardless of their shape, offering a robust alternative to bounding box regression. We demonstrate the effectiveness of IndoorBEV on a custom indoor dataset featuring diverse object classes including static objects and dynamic elements like robots and miscellaneous items, showcasing its potential for robust indoor scene understanding.
- Abstract(参考訳): 複雑な屋内3D点雲内の多様な物体を検出することは、ロボットの知覚にとって重要な課題である。
これらの制約に対処するため,室内移動ロボットのための新しいマスクベースのBird's-Eye View(BEV)手法であるIndoorBEVを提案する。
BEV法では、3Dシーンを2次元BEVグリッドに投影し、自然閉塞を処理し、動的エージェントと静的障害物を区別する一貫したトップダウンビューを提供する。
得られた2D BEV結果は、ナビゲーション、モーション予測、計画といった下流のロボットタスクに直接使用することができる。
このアーキテクチャでは、軸コンパクトエンコーダとウィンドウベースバックボーンを用いて、このBEVマップから豊富な空間的特徴を抽出する。
クエリベースのデコーダヘッドは、学習したオブジェクトクエリを使用して、BEV空間内のオブジェクトクラスとインスタンスマスクを同時に予測する。
このマスク中心の定式化は、形状に関わらず静的オブジェクトと動的オブジェクトの両方のフットプリントを効果的にキャプチャし、バウンディングボックスの回帰に対する堅牢な代替手段を提供する。
IndoorBEVは、静的なオブジェクトやロボットや雑多なアイテムなどの動的要素を含む多様なオブジェクトクラスを特徴とし、屋内環境の堅牢な理解の可能性を示している。
関連論文リスト
- SliceOcc: Indoor 3D Semantic Occupancy Prediction with Vertical Slice Representation [50.420711084672966]
室内3Dセマンティック占有予測に適したRGBカメラベースモデルであるSliceOccを提案する。
EmbodiedScanデータセットの実験結果は、SliceOccが81の屋内カテゴリで15.45%のmIoUを達成したことを示している。
論文 参考訳(メタデータ) (2025-01-28T03:41:24Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - DA-BEV: Unsupervised Domain Adaptation for Bird's Eye View Perception [104.87876441265593]
カメラのみのBird's Eye View (BEV)は3次元空間における環境認識に大きな可能性を示した。
非教師なし領域適応型BEVは、様々な未ラベル対象データから効果的に学習するが、まだ未探索である。
DA-BEVは、画像ビュー機能とBEV機能の相補性を利用して、ドメイン適応型BEV課題に対処する、最初のドメイン適応型カメラのみのBEVフレームワークである。
論文 参考訳(メタデータ) (2024-01-13T04:21:24Z) - Towards Generalizable Multi-Camera 3D Object Detection via Perspective
Debiasing [28.874014617259935]
マルチカメラ3Dオブジェクト検出(MC3D-Det)は,鳥眼ビュー(BEV)の出現によって注目されている。
本研究では,3次元検出と2次元カメラ平面との整合性を両立させ,一貫した高精度な検出を実現する手法を提案する。
論文 参考訳(メタデータ) (2023-10-17T15:31:28Z) - MaskBEV: Joint Object Detection and Footprint Completion for Bird's-eye
View 3D Point Clouds [0.0]
MaskBEVは、BEV(Bird's-eye View)マスクベースの物体検出器ニューラルアーキテクチャである。
MaskBEVは検出されたオブジェクトのフットプリントを表す一連のBEVインスタンスマスクを予測する。
本研究では,Semantic KITTIデータセットとKITTIデータセットの両方でMaskBEVの性能を評価する。
論文 参考訳(メタデータ) (2023-07-04T18:22:00Z) - OCBEV: Object-Centric BEV Transformer for Multi-View 3D Object Detection [29.530177591608297]
マルチビュー3Dオブジェクト検出は、高い有効性と低コストのため、自動運転において人気を博している。
現在の最先端検出器のほとんどは、クエリベースのバードアイビュー(BEV)パラダイムに従っている。
本稿では,移動対象の時間的・空間的手がかりをより効率的に彫ることができるOCBEVを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:59:48Z) - OA-BEV: Bringing Object Awareness to Bird's-Eye-View Representation for
Multi-Camera 3D Object Detection [78.38062015443195]
OA-BEVは、BEVベースの3Dオブジェクト検出フレームワークにプラグインできるネットワークである。
提案手法は,BEV ベースラインに対する平均精度と nuScenes 検出スコアの両面で一貫した改善を実現する。
論文 参考訳(メタデータ) (2023-01-13T06:02:31Z) - BEV-MAE: Bird's Eye View Masked Autoencoders for Point Cloud
Pre-training in Autonomous Driving Scenarios [51.285561119993105]
自律運転におけるLiDARに基づく3Dオブジェクト検出のための,効率的なマスク付きオートエンコーダ事前学習フレームワークであるBEV-MAEを提案する。
具体的には、3Dエンコーダ学習特徴表現を導くために,鳥の目視(BEV)誘導マスキング戦略を提案する。
学習可能なポイントトークンを導入し、3Dエンコーダの一貫性のある受容的フィールドサイズを維持する。
論文 参考訳(メタデータ) (2022-12-12T08:15:03Z) - M^2BEV: Multi-Camera Joint 3D Detection and Segmentation with Unified
Birds-Eye View Representation [145.6041893646006]
M$2$BEVは3Dオブジェクトの検出とマップのセグメンテーションを共同で行う統合フレームワークである。
M$2$BEVは、両方のタスクを統一モデルで推論し、効率を向上する。
論文 参考訳(メタデータ) (2022-04-11T13:43:25Z) - BEVFormer: Learning Bird's-Eye-View Representation from Multi-Camera
Images via Spatiotemporal Transformers [39.253627257740085]
マルチカメラ画像に基づく3次元検出やマップセグメンテーションを含む3次元視覚認識タスクは、自律運転システムに不可欠である。
本稿では,複数の自律運転認識タスクをサポートするために,変圧器を用いた統合BEV表現を学習するBEVFormerという新しいフレームワークを提案する。
BEVFormerは低視認性条件下での物体の速度推定とリコールの精度を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-03-31T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。