論文の概要: Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping
- arxiv url: http://arxiv.org/abs/2505.23756v1
- Date: Thu, 29 May 2025 17:59:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.082687
- Title: Rooms from Motion: Un-posed Indoor 3D Object Detection as Localization and Mapping
- Title(参考訳): 動きからの部屋:位置とマッピングとしての非姿勢屋内3次元物体検出
- Authors: Justin Lazarow, Kai Kang, Afshin Dehghan,
- Abstract要約: 我々は,シーンレベルの3Dオブジェクト検出を,ローカライズとマッピングの両方が可能なオブジェクト中心フレームワークの出力として再考する。
画像由来の3Dボックスをベースとした標準の2Dキーポイントベースのマーカをオブジェクト中心のマーカに置き換えることで、計測カメラのポーズ、オブジェクトトラックを推定し、最終的にグローバルなセマンティックな3Dオブジェクトマップを生成する。
- 参考スコア(独自算出の注目度): 8.332670136772558
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit scene-level 3D object detection as the output of an object-centric framework capable of both localization and mapping using 3D oriented boxes as the underlying geometric primitive. While existing 3D object detection approaches operate globally and implicitly rely on the a priori existence of metric camera poses, our method, Rooms from Motion (RfM) operates on a collection of un-posed images. By replacing the standard 2D keypoint-based matcher of structure-from-motion with an object-centric matcher based on image-derived 3D boxes, we estimate metric camera poses, object tracks, and finally produce a global, semantic 3D object map. When a priori pose is available, we can significantly improve map quality through optimization of global 3D boxes against individual observations. RfM shows strong localization performance and subsequently produces maps of higher quality than leading point-based and multi-view 3D object detection methods on CA-1M and ScanNet++, despite these global methods relying on overparameterization through point clouds or dense volumes. Rooms from Motion achieves a general, object-centric representation which not only extends the work of Cubify Anything to full scenes but also allows for inherently sparse localization and parametric mapping proportional to the number of objects in a scene.
- Abstract(参考訳): シーンレベルの3Dオブジェクト検出を,3D指向のボックスを基本となる幾何学的プリミティブとして,局所化とマッピングの両立が可能なオブジェクト中心フレームワークの出力として再考する。
既存の3Dオブジェクト検出手法は,メートル法カメラのポーズの先行的な存在に依存して,グローバルかつ暗黙的に動作するが,我々の手法であるRooms from Motion (RfM) は未ポーズ画像のコレクションで動作する。
画像由来の3Dボックスをベースとした標準の2Dキーポイントベースのマーカをオブジェクト中心のマーカに置き換えることで、計測カメラのポーズ、オブジェクトトラックを推定し、最終的にグローバルなセマンティックな3Dオブジェクトマップを生成する。
事前ポーズが利用可能であれば、グローバルな3Dボックスを個別の観測に対して最適化することで、マップの品質を著しく向上させることができる。
RfMは強力なローカライゼーション性能を示し、その後、点雲や高密度ボリュームによる過度パラメータ化に依存しているにもかかわらず、CA-1MとScanNet++の先進的な点ベースおよびマルチビューの3Dオブジェクト検出手法よりも高品質なマップを生成する。
モーションの部屋は、あらゆるものをフルシーンに拡張するだけでなく、シーン内のオブジェクトの数に比例した局所化とパラメトリックマッピングを可能にする、汎用的なオブジェクト中心の表現を実現している。
関連論文リスト
- Towards Flexible 3D Perception: Object-Centric Occupancy Completion Augments 3D Object Detection [54.78470057491049]
占領は3Dシーンの知覚に有望な代替手段として現れてきた。
オブジェクトbboxのサプリメントとして,オブジェクト中心の占有率を導入する。
これらの特徴は,最先端の3Dオブジェクト検出器の検出結果を著しく向上させることを示した。
論文 参考訳(メタデータ) (2024-12-06T16:12:38Z) - BOX3D: Lightweight Camera-LiDAR Fusion for 3D Object Detection and Localization [6.029300324532809]
本稿では,RGBカメラと3D LiDARの情報を融合させることにより,興味の対象をローカライズする新しい手法であるBOX3Dを提案する。
BOX3Dは、3層構造で構築されており、入力されたシーケンシャルセンサーデータの局所的な知覚から、グローバルな知覚の洗練までで構成されている。
提案した新しいアーキテクチャのベンチマーク結果は,都市環境の大規模データセットに関する複数の実験で実証された。
論文 参考訳(メタデータ) (2024-08-27T10:26:05Z) - LocaliseBot: Multi-view 3D object localisation with differentiable
rendering for robot grasping [9.690844449175948]
オブジェクトのポーズ推定に重点を置いています。
このアプローチは,オブジェクトの複数ビュー,それらの視点におけるカメラのパラメータ,オブジェクトの3次元CADモデルという3つの情報に依存している。
推定対象のポーズが99.65%の精度で真理把握候補を把握できることが示される。
論文 参考訳(メタデータ) (2023-11-14T14:27:53Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - 3D Object Aided Self-Supervised Monocular Depth Estimation [5.579605877061333]
本研究では,モノクロ3次元物体検出による動的物体の動きに対処する新しい手法を提案する。
具体的には、まず画像中の3Dオブジェクトを検出し、検出されたオブジェクトのポーズと動的ピクセル間の対応性を構築する。
このようにして、各ピクセルの深さは有意義な幾何学モデルによって学習することができる。
論文 参考訳(メタデータ) (2022-12-04T08:52:33Z) - CMR3D: Contextualized Multi-Stage Refinement for 3D Object Detection [57.44434974289945]
本稿では,3次元オブジェクト検出(CMR3D)フレームワークのためのコンテキスト型マルチステージリファインメントを提案する。
我々のフレームワークは3Dシーンを入力として取り、シーンの有用なコンテキスト情報を明示的に統合しようと試みている。
3Dオブジェクトの検出に加えて,3Dオブジェクトカウント問題に対するフレームワークの有効性について検討する。
論文 参考訳(メタデータ) (2022-09-13T05:26:09Z) - Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving
Objects [115.71874459429381]
本研究では, 物体の3次元形状, テクスチャ, 動きを単一動画像から共同で再構成する新しい課題について述べる。
従来の手法では2次元画像領域でのみ遅延問題に対処するが、3次元領域における全ての物体特性の厳密なモデリングは任意の物体の動きの正確な記述を可能にする。
論文 参考訳(メタデータ) (2021-06-16T13:18:08Z) - 3D Object Recognition By Corresponding and Quantizing Neural 3D Scene
Representations [29.61554189447989]
本稿では,RGB-D画像からオブジェクトを検出し,その3Dポーズを推測するシステムを提案する。
多くの既存のシステムはオブジェクトを識別し、3Dのポーズを推測できるが、それらは人間のラベルや3Dアノテーションに大きく依存している。
論文 参考訳(メタデータ) (2020-10-30T13:56:09Z) - Canonical 3D Deformer Maps: Unifying parametric and non-parametric
methods for dense weakly-supervised category reconstruction [79.98689027127855]
独立オブジェクトの2次元画像の集合から学習できる共通オブジェクトカテゴリの3次元形状の表現を提案する。
提案手法は, パラメトリック変形モデル, 非パラメトリック3次元再構成, 標準埋め込みの概念に基づく新しい手法で構築する。
顔、車、鳥の野生のデータセットを3Dで再現することで、最先端の成果が得られます。
論文 参考訳(メタデータ) (2020-08-28T15:44:05Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。