論文の概要: DM-OSVP++: One-Shot View Planning Using 3D Diffusion Models for Active RGB-Based Object Reconstruction
- arxiv url: http://arxiv.org/abs/2504.11674v1
- Date: Wed, 16 Apr 2025 00:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-24 22:33:38.664536
- Title: DM-OSVP++: One-Shot View Planning Using 3D Diffusion Models for Active RGB-Based Object Reconstruction
- Title(参考訳): DM-OSVP++:アクティブRGBオブジェクト再構成のための3次元拡散モデルを用いたワンショットビュープランニング
- Authors: Sicong Pan, Liren Jin, Xuying Huang, Cyrill Stachniss, Marija Popović, Maren Bennewitz,
- Abstract要約: ワンショットビュープランニングは、すべてのビューを同時に予測することで、効率的なデータ収集を可能にする。
初期多視点画像の条件付けにより,3次元拡散モデルからの先行情報を利用して近似オブジェクトモデルを生成する。
シミュレーションと実世界の実験により,提案するアクティブオブジェクト再構築システムを検証する。
- 参考スコア(独自算出の注目度): 24.44253219419552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Active object reconstruction is crucial for many robotic applications. A key aspect in these scenarios is generating object-specific view configurations to obtain informative measurements for reconstruction. One-shot view planning enables efficient data collection by predicting all views at once, eliminating the need for time-consuming online replanning. Our primary insight is to leverage the generative power of 3D diffusion models as valuable prior information. By conditioning on initial multi-view images, we exploit the priors from the 3D diffusion model to generate an approximate object model, serving as the foundation for our view planning. Our novel approach integrates the geometric and textural distributions of the object model into the view planning process, generating views that focus on the complex parts of the object to be reconstructed. We validate the proposed active object reconstruction system through both simulation and real-world experiments, demonstrating the effectiveness of using 3D diffusion priors for one-shot view planning.
- Abstract(参考訳): 多くのロボットアプリケーションにとって、アクティブなオブジェクト再構築は不可欠である。
これらのシナリオにおける重要な側面は、再構成のための情報的測定を得るために、オブジェクト固有のビュー構成を生成することである。
ワンショットビュープランニングは、すべてのビューを一度に予測し、時間を要するオンラインリプランニングを不要にすることで、効率的なデータ収集を可能にする。
我々の第一の洞察は、3次元拡散モデルの生成力を貴重な事前情報として活用することである。
初期多視点画像の条件付けにより,3次元拡散モデルからの先行情報を生かして近似オブジェクトモデルを生成し,ビュープランニングの基礎となる。
我々の新しいアプローチは、オブジェクトモデルの幾何学的およびテクスチャ的分布をビュー計画プロセスに統合し、再構成対象の複雑な部分に焦点を当てたビューを生成する。
シミュレーションと実世界の実験により,提案したアクティブオブジェクト再構築システムの有効性を検証し,ワンショットビュープランニングにおける3次元拡散先行手法の有効性を実証した。
関連論文リスト
- Aether: Geometric-Aware Unified World Modeling [49.33579903601599]
Aetherは、世界モデルにおける幾何学的推論を可能にする統一されたフレームワークである。
動作追従タスクと再構成タスクの両方においてゼロショットの一般化を実現する。
私たちの研究がコミュニティに、物理的に理にかなった世界モデリングにおける新たなフロンティアを探求させることを期待しています。
論文 参考訳(メタデータ) (2025-03-24T17:59:51Z) - Exploiting Priors from 3D Diffusion Models for RGB-Based One-Shot View Planning [24.44253219419552]
本稿では,拡散モデルの強力な3次元生成能力を先行として活用したワンショットビュー計画手法を提案する。
シミュレーションと実環境における実験により, オブジェクト再構成の品質と移動コストのバランスが良好であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T14:21:49Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - Bag of Views: An Appearance-based Approach to Next-Best-View Planning
for 3D Reconstruction [3.637651065605852]
Bag-of-Views (BoV) は、キャプチャされたビューにユーティリティを割り当てるのに使用される、完全な外観ベースのモデルである。
View Planning Toolbox(VPT)は、機械学習ベースのビュープランニングフレームワークのトレーニングとテストのための軽量パッケージである。
論文 参考訳(メタデータ) (2023-07-11T22:56:55Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - A Simple Baseline for Multi-Camera 3D Object Detection [94.63944826540491]
周囲のカメラで3Dオブジェクトを検出することは、自動運転にとって有望な方向だ。
マルチカメラオブジェクト検出のための簡易ベースラインであるSimMODを提案する。
我々は, nuScenes の3次元オブジェクト検出ベンチマークにおいて, SimMOD の有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-08-22T03:38:01Z) - Pose Estimation and 3D Reconstruction of Vehicles from Stereo-Images
Using a Subcategory-Aware Shape Prior [0.0]
物体やコンピュータビジョンの3D再構成は、移動ロボット自動運転など、多くのアプリケーションにとって必須条件である。
本研究の目的は,従来の形状観察から3次元物体の復元がいかに利益を得るかを示すことである。
論文 参考訳(メタデータ) (2021-07-22T19:47:49Z) - MoreFusion: Multi-object Reasoning for 6D Pose Estimation from
Volumetric Fusion [19.034317851914725]
本稿では,複数の既知の物体の接触と隠蔽の正確なポーズを,リアルタイムな多視点視から推定するシステムを提案する。
提案手法は,1枚のRGB-Dビューからの3Dオブジェクトのポーズ提案を行い,カメラが移動すると,複数のビューからのポーズ推定と非パラメトリック占有情報を蓄積する。
提案手法の精度とロバスト性を2つのオブジェクトデータセット(YCB-Video)で実験的に検証する。
論文 参考訳(メタデータ) (2020-04-09T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。