論文の概要: Toward General Object-level Mapping from Sparse Views with 3D Diffusion Priors
- arxiv url: http://arxiv.org/abs/2410.05514v1
- Date: Mon, 7 Oct 2024 21:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:18:04.992186
- Title: Toward General Object-level Mapping from Sparse Views with 3D Diffusion Priors
- Title(参考訳): 3次元拡散プリミティブを用いたスパース視点からの汎用オブジェクトレベルのマッピングに向けて
- Authors: Ziwei Liao, Binbin Xu, Steven L. Waslander,
- Abstract要約: 一般的なオブジェクトレベルのマッピングは、細かな形状と多視点センサーの観察によるポーズで、シーン内のオブジェクトの3Dマップを構築する。
最近の研究は、スパースビューからオブジェクトレベルのマッピングに先立つ生成的な形状を導入しているが、それは単一カテゴリオブジェクトに限定されている。
本研究では,3次元拡散モデルを用いた汎用オブジェクトレベルマッピングシステム GOM を提案し,シーン内の全てのオブジェクトのテクスチャと幾何学の両方に対してニューラルレージアンス場 (NeRF) を出力する。
- 参考スコア(独自算出の注目度): 8.701106353658346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object-level mapping builds a 3D map of objects in a scene with detailed shapes and poses from multi-view sensor observations. Conventional methods struggle to build complete shapes and estimate accurate poses due to partial occlusions and sensor noise. They require dense observations to cover all objects, which is challenging to achieve in robotics trajectories. Recent work introduces generative shape priors for object-level mapping from sparse views, but is limited to single-category objects. In this work, we propose a General Object-level Mapping system, GOM, which leverages a 3D diffusion model as shape prior with multi-category support and outputs Neural Radiance Fields (NeRFs) for both texture and geometry for all objects in a scene. GOM includes an effective formulation to guide a pre-trained diffusion model with extra nonlinear constraints from sensor measurements without finetuning. We also develop a probabilistic optimization formulation to fuse multi-view sensor observations and diffusion priors for joint 3D object pose and shape estimation. Our GOM system demonstrates superior multi-category mapping performance from sparse views, and achieves more accurate mapping results compared to state-of-the-art methods on the real-world benchmarks. We will release our code: https://github.com/TRAILab/GeneralObjectMapping.
- Abstract(参考訳): オブジェクトレベルのマッピングは、詳細な形状と多視点センサー観測によるポーズで、シーン内のオブジェクトの3Dマップを構築する。
従来の手法では、完全な形状を作るのに苦労し、部分閉塞とセンサノイズのために正確なポーズを推定する。
それらは全ての物体をカバーするために密集した観測を必要としており、ロボットの軌道で達成することは困難である。
最近の研究は、スパースビューからオブジェクトレベルのマッピングに先立つ生成的な形状を導入しているが、それは単一カテゴリオブジェクトに限定されている。
本研究では,3次元拡散モデルを用いた汎用オブジェクトレベルマッピングシステム GOM を提案し,シーン内の全てのオブジェクトのテクスチャと幾何学の両方に対してニューラルレージアンス場 (NeRF) を出力する。
GOMは、微細化せずにセンサ測定から余分な非線形制約で事前訓練された拡散モデルを導出する効果的な定式化を含む。
また,関節3次元物体のポーズと形状推定のための多視点センサ観測と拡散先行を融合させる確率的最適化法を開発した。
我々のGOMシステムはスパースビューから優れたマルチカテゴリマッピング性能を示し、実世界のベンチマークの最先端手法と比較してより正確なマッピング結果を得る。
コード https://github.com/TRAILab/GeneralObjectMapping.com/ を公開します。
関連論文リスト
- Voxel-Aggergated Feature Synthesis: Efficient Dense Mapping for Simulated 3D Reasoning [3.199782544428545]
Voxel-Aggregated Feature Synthesis (VAFS) はシミュレーションにおける高密度3次元マッピングの新しいアプローチである。
VAFSはシミュレータの物理エンジンによって計算される分節点クラウドを用いて計算を大幅に削減する。
シミュレーションシーンにおける異なるオブジェクトに対する意味的クエリのIoUスコアを評価することで、結果の表現を検証する。
論文 参考訳(メタデータ) (2024-11-15T22:37:56Z) - Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - Self-supervised 3D Point Cloud Completion via Multi-view Adversarial Learning [61.14132533712537]
我々は、オブジェクトレベルとカテゴリ固有の幾何学的類似性の両方を効果的に活用するフレームワークであるMAL-SPCを提案する。
私たちのMAL-SPCは3Dの完全な監視を一切必要とせず、各オブジェクトに1つの部分点クラウドを必要とするだけです。
論文 参考訳(メタデータ) (2024-07-13T06:53:39Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - What You See Is What You Detect: Towards better Object Densification in
3D detection [2.3436632098950456]
広く使われているフル形状のコンプリートアプローチは、特に遠く離れた物や歩行者のような小さな物に対して、エラーのアップバウンドを高くする。
従来の手法が生成した予測ポイントの11.3%しか必要としない可視部分補完法を提案する。
密表現を復元するために,目に見える前景オブジェクトに関連付けられた点集合を拡大するメッシュデフォーメーションに基づく手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T01:46:37Z) - Object-level 3D Semantic Mapping using a Network of Smart Edge Sensors [25.393382192511716]
我々は,分散エッジセンサのネットワークとオブジェクトレベルの情報からなる多視点3次元意味マッピングシステムを拡張した。
提案手法は,数cm以内でのポーズ推定と,実験室環境におけるセンサネットワークを用いた実環境実験により,Behaveデータセットを用いて評価した。
論文 参考訳(メタデータ) (2022-11-21T11:13:08Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z) - DOPS: Learning to Detect 3D Objects and Predict their 3D Shapes [54.239416488865565]
LIDARデータに対する高速な1段3次元物体検出法を提案する。
我々の手法の中核となる新規性は高速かつシングルパスアーキテクチャであり、どちらも3次元の物体を検出し、それらの形状を推定する。
提案手法は,ScanNetシーンのオブジェクト検出で5%,オープンデータセットでは3.4%の精度で結果が得られた。
論文 参考訳(メタデータ) (2020-04-02T17:48:50Z) - BirdNet+: End-to-End 3D Object Detection in LiDAR Bird's Eye View [117.44028458220427]
自動運転車のオンボード3Dオブジェクト検出は、LiDARデバイスが捉えた幾何学情報に依存することが多い。
本稿では,BEV画像のみから指向性3Dボックスを推測可能な,エンドツーエンドの3Dオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-09T15:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。