論文の概要: Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal
Rearrangement
- arxiv url: http://arxiv.org/abs/2307.04751v1
- Date: Mon, 10 Jul 2023 17:56:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 12:03:35.847390
- Title: Shelving, Stacking, Hanging: Relational Pose Diffusion for Multi-modal
Rearrangement
- Title(参考訳): シェルビング,積み重ね,ハンギング:マルチモーダルリアレンジのための関係性ポッド拡散
- Authors: Anthony Simeonov, Ankit Goyal, Lucas Manuelli, Lin Yen-Chen, Alina
Sarmiento, Alberto Rodriguez, Pulkit Agrawal, Dieter Fox
- Abstract要約: 本研究では,シーン内のオブジェクトを並べ替えて,所望のオブジェクトとシーンの配置関係を実現するシステムを提案する。
パイプラインは、新しいジオメトリ、ポーズ、シーンとオブジェクトのレイアウトに一般化される。
- 参考スコア(独自算出の注目度): 49.888011242939385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a system for rearranging objects in a scene to achieve a desired
object-scene placing relationship, such as a book inserted in an open slot of a
bookshelf. The pipeline generalizes to novel geometries, poses, and layouts of
both scenes and objects, and is trained from demonstrations to operate directly
on 3D point clouds. Our system overcomes challenges associated with the
existence of many geometrically-similar rearrangement solutions for a given
scene. By leveraging an iterative pose de-noising training procedure, we can
fit multi-modal demonstration data and produce multi-modal outputs while
remaining precise and accurate. We also show the advantages of conditioning on
relevant local geometric features while ignoring irrelevant global structure
that harms both generalization and precision. We demonstrate our approach on
three distinct rearrangement tasks that require handling multi-modality and
generalization over object shape and pose in both simulation and the real
world. Project website, code, and videos:
https://anthonysimeonov.github.io/rpdiff-multi-modal/
- Abstract(参考訳): 本書棚のオープンスロットに挿入された本など,所望のオブジェクト・シーン配置関係を実現するために,シーン内のオブジェクトを並べ替えるシステムを提案する。
パイプラインは、新しいジオメトリ、ポーズ、シーンとオブジェクトのレイアウトに一般化され、デモからトレーニングされ、3Dポイントクラウド上で直接操作される。
本システムは,任意のシーンに対して,幾何的に類似した再構成解が存在することに伴う課題を克服する。
反復的ポーズ復調訓練手法を利用することで,マルチモーダルな実演データに適合し,精度と精度を保ちながらマルチモーダルな出力を生成することができる。
また,局所的な幾何学的特徴に対する条件付けの利点を示すとともに,一般化と精度を損なう無関係な大域構造を無視する。
シミュレーションと実世界の両方において,物体形状上のマルチモダリティと一般化の処理を必要とする3つの異なる再配置タスクに対する我々のアプローチを実証する。
プロジェクトサイト、コード、ビデオ: https://anthonysimeonov.github.io/rpdiff-multi-modal/
関連論文リスト
- Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection [24.00828999360765]
本稿では,一般的な物体をロボットでつかむという課題に対処する。
提案したモデルはまず、シーン内で最も可能性の高いいくつかの把握ポイントを提案する。
各グリップポイントの周囲に、モジュールはその近傍にある任意のボクセルが空か、ある物体に占有されているかを推測するように設計されている。
モデルはさらに、局所占有力向上した物体形状情報を利用して、6-DoFグリップポーズを推定する。
論文 参考訳(メタデータ) (2024-07-22T16:22:28Z) - GenS: Generalizable Neural Surface Reconstruction from Multi-View Images [20.184657468900852]
GenSは、エンドツーエンドの一般化可能なニューラルサーフェス再構成モデルである。
我々の表現はより強力であり、グローバルな滑らかさを維持しながら高周波の詳細を回復することができる。
人気のあるベンチマーク実験により、我々のモデルは新たなシーンにうまく一般化できることが示された。
論文 参考訳(メタデータ) (2024-06-04T17:13:10Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
混合離散連続拡散モデルアーキテクチャであるMiDiffusionを提案する。
シーンレイアウトを2次元のフロアプランとオブジェクトの集合で表現し、それぞれがそのカテゴリ、場所、サイズ、方向で定義する。
実験により,MiDiffusionは床条件下での3次元シーン合成において,最先端の自己回帰モデルや拡散モデルよりもかなり優れていることが示された。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest [65.48057241587398]
PoIFusionは、関心点(PoIs)におけるRGBイメージとLiDARポイントクラウドに関する情報を融合するフレームワークである。
提案手法は,各モダリティの視点を維持し,計算にやさしいプロジェクションと計算によってマルチモーダル特徴を得る。
我々はnuScenesとArgoverse2データセットについて広範囲に実験を行い、我々のアプローチを評価した。
論文 参考訳(メタデータ) (2024-03-14T09:28:12Z) - Multi-Model 3D Registration: Finding Multiple Moving Objects in
Cluttered Point Clouds [23.923838486208524]
マルチモデル3D登録問題(Multi-model 3D registration)のバリエーションについて検討する。
マルチモデル登録問題では、異なるポーズでオブジェクトの集合を撮影する2点の雲が与えられる。
私たちは、すべてのオブジェクトが2点の雲の間を移動する様子を同時に再構築したいと考えています。
論文 参考訳(メタデータ) (2024-02-16T18:01:43Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - MMRDN: Consistent Representation for Multi-View Manipulation
Relationship Detection in Object-Stacked Scenes [62.20046129613934]
我々は,MMRDN(Multi-view MRD Network)と呼ばれる新しい多視点融合フレームワークを提案する。
異なるビューからの2Dデータを共通の隠れ空間に投影し、埋め込みをVon-Mises-Fisher分布に適合させる。
これら2つのオブジェクトの相対位置を符号化した各オブジェクト対の点雲から、K$最大垂直近傍点(KMVN)の集合を選択する。
論文 参考訳(メタデータ) (2023-04-25T05:55:29Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。