論文の概要: Exploiting Priors from 3D Diffusion Models for RGB-Based One-Shot View Planning
- arxiv url: http://arxiv.org/abs/2403.16803v2
- Date: Sun, 15 Sep 2024 18:34:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 02:45:24.153038
- Title: Exploiting Priors from 3D Diffusion Models for RGB-Based One-Shot View Planning
- Title(参考訳): RGBに基づくワンショットビュープランニングのための3次元拡散モデルからの先行点の抽出
- Authors: Sicong Pan, Liren Jin, Xuying Huang, Cyrill Stachniss, Marija Popović, Maren Bennewitz,
- Abstract要約: 本稿では,拡散モデルの強力な3次元生成能力を先行として活用したワンショットビュー計画手法を提案する。
シミュレーションと実環境における実験により, オブジェクト再構成の品質と移動コストのバランスが良好であることが示唆された。
- 参考スコア(独自算出の注目度): 24.44253219419552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object reconstruction is relevant for many autonomous robotic tasks that require interaction with the environment. A key challenge in such scenarios is planning view configurations to collect informative measurements for reconstructing an initially unknown object. One-shot view planning enables efficient data collection by predicting view configurations and planning the globally shortest path connecting all views at once. However, prior knowledge about the object is required to conduct one-shot view planning. In this work, we propose a novel one-shot view planning approach that utilizes the powerful 3D generation capabilities of diffusion models as priors. By incorporating such geometric priors into our pipeline, we achieve effective one-shot view planning starting with only a single RGB image of the object to be reconstructed. Our planning experiments in simulation and real-world setups indicate that our approach balances well between object reconstruction quality and movement cost.
- Abstract(参考訳): オブジェクト再構成は、環境との相互作用を必要とする多くの自律ロボットタスクに関係している。
このようなシナリオにおける重要な課題は、最初に未知のオブジェクトを再構築するための情報的測定を収集するビューの設定を計画することである。
ワンショットビュープランニングは、ビュー構成を予測し、すべてのビューを同時に接続する最も短いパスを計画することで、効率的なデータ収集を可能にする。
しかしながら、オブジェクトに関する事前の知識は、ワンショットビュープランニングを実行するために必要である。
本研究では,拡散モデルの強力な3次元生成能力を先行として活用したワンショットビュー計画手法を提案する。
このような幾何学的前提をパイプラインに組み込むことで、再構成対象の1枚のRGB画像から始まる効果的なワンショットビュープランニングを実現する。
シミュレーションと実世界のセットアップにおける計画実験は、我々のアプローチがオブジェクト再構成の品質と移動コストのバランスをよく保っていることを示唆している。
関連論文リスト
- Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - PlaneRecTR++: Unified Query Learning for Joint 3D Planar Reconstruction and Pose Estimation [10.982464344805194]
PlaneRecTR++はTransformerベースのアーキテクチャで、マルチビューの再構築とポーズ推定に関連するすべてのサブタスクを統合する。
提案した統合学習は,ScanNetv1,ScanNetv2,NYUv2-Plane,MatterPort3Dデータセット上での最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-25T18:28:19Z) - Bag of Views: An Appearance-based Approach to Next-Best-View Planning
for 3D Reconstruction [3.637651065605852]
Bag-of-Views (BoV) は、キャプチャされたビューにユーティリティを割り当てるのに使用される、完全な外観ベースのモデルである。
View Planning Toolbox(VPT)は、機械学習ベースのビュープランニングフレームワークのトレーニングとテストのための軽量パッケージである。
論文 参考訳(メタデータ) (2023-07-11T22:56:55Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - Learning Reconstructability for Drone Aerial Path Planning [51.736344549907265]
本研究では,無人ドローンを用いた大規模3次元都市景観獲得のためのビューとパスプランニングを改善するための,学習に基づく最初の再構成可能性予測器を提案する。
従来の手法とは対照的に,本手法では,一組の視点から3次元都市景観をいかによく再構築するかを明示的に予測するモデルを学習する。
論文 参考訳(メタデータ) (2022-09-21T08:10:26Z) - PlaneRecNet: Multi-Task Learning with Cross-Task Consistency for
Piece-Wise Plane Detection and Reconstruction from a Single RGB Image [11.215334675788952]
ピアースワイドな3次元平面再構成は、特に屋内シナリオにおいて、人為的な環境の全体像の理解を提供する。
最新のアプローチは、高度なネットワークアーキテクチャを導入し、セグメンテーションと再構築結果の改善に重点を置いている。
マルチタスク畳み込みニューラルネットワークであるPlaneRecNetのクロスタスク一貫性の強化から始まります。
平面分割と深さ推定の精度を両立させる新しい損失関数(幾何学的制約)を導入する。
論文 参考訳(メタデータ) (2021-10-21T15:54:03Z) - Reconstructing Interactive 3D Scenes by Panoptic Mapping and CAD Model
Alignments [81.38641691636847]
エンボディエージェントの観点から,シーン再構築の問題を再考する。
rgb-dデータストリームを用いてインタラクティブシーンを再構築する。
この再構成されたシーンは、密集したパノプティカルマップのオブジェクトメッシュを、部分ベースのCADモデルに置き換える。
論文 参考訳(メタデータ) (2021-03-30T05:56:58Z) - Enabling Visual Action Planning for Object Manipulation through Latent
Space Roadmap [72.01609575400498]
高次元状態空間を有する複雑な操作タスクの視覚的行動計画のための枠組みを提案する。
低次元潜時空間におけるシステムダイナミクスを世界規模で捉えたグラフベースの構造であるタスク計画のためのLatent Space Roadmap(LSR)を提案する。
実ロボットで実行された2つの模擬ボックス積み重ねタスクと折り畳みタスクについて,本フレームワークの徹底的な検討を行う。
論文 参考訳(メタデータ) (2021-03-03T17:48:26Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z) - MoreFusion: Multi-object Reasoning for 6D Pose Estimation from
Volumetric Fusion [19.034317851914725]
本稿では,複数の既知の物体の接触と隠蔽の正確なポーズを,リアルタイムな多視点視から推定するシステムを提案する。
提案手法は,1枚のRGB-Dビューからの3Dオブジェクトのポーズ提案を行い,カメラが移動すると,複数のビューからのポーズ推定と非パラメトリック占有情報を蓄積する。
提案手法の精度とロバスト性を2つのオブジェクトデータセット(YCB-Video)で実験的に検証する。
論文 参考訳(メタデータ) (2020-04-09T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。