論文の概要: D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement
- arxiv url: http://arxiv.org/abs/2309.16118v3
- Date: Wed, 16 Oct 2024 20:30:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:16:44.311878
- Title: D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable Rearrangement
- Title(参考訳): D$3$Fields: ゼロショット一般化可能な再配置のための動的3次元記述子場
- Authors: Yixuan Wang, Mingtong Zhang, Zhuoran Li, Tarik Kelestemur, Katherine Driggs-Campbell, Jiajun Wu, Li Fei-Fei, Yunzhu Li,
- Abstract要約: D$3$Fields -- 動的3D記述子フィールドを導入します。
これらのフィールドは暗黙的な3D表現であり、3Dポイントを取り込み、セマンティックな特徴とインスタンスマスクを出力する。
D$3$Fields はゼロショットの一般化可能な再配置タスクに有効であることを示す。
- 参考スコア(独自算出の注目度): 31.59477627101119
- License:
- Abstract: Scene representation is a crucial design choice in robotic manipulation systems. An ideal representation is expected to be 3D, dynamic, and semantic to meet the demands of diverse manipulation tasks. However, previous works often lack all three properties simultaneously. In this work, we introduce D$^3$Fields -- dynamic 3D descriptor fields. These fields are implicit 3D representations that take in 3D points and output semantic features and instance masks. They can also capture the dynamics of the underlying 3D environments. Specifically, we project arbitrary 3D points in the workspace onto multi-view 2D visual observations and interpolate features derived from visual foundational models. The resulting fused descriptor fields allow for flexible goal specifications using 2D images with varied contexts, styles, and instances. To evaluate the effectiveness of these descriptor fields, we apply our representation to rearrangement tasks in a zero-shot manner. Through extensive evaluation in real worlds and simulations, we demonstrate that D$^3$Fields are effective for zero-shot generalizable rearrangement tasks. We also compare D$^3$Fields with state-of-the-art implicit 3D representations and show significant improvements in effectiveness and efficiency.
- Abstract(参考訳): シーン表現はロボット操作システムにおいて重要な設計選択である。
理想的な表現は、多様な操作タスクの要求を満たすために、3D、ダイナミック、セマンティックであることが期待されている。
しかし、以前の作品は同時に3つの性質を欠いていることが多い。
本稿ではD$^3$Fields -- 動的3D記述子フィールドについて紹介する。
これらのフィールドは暗黙的な3D表現であり、3Dポイントを取り込み、セマンティックな特徴とインスタンスマスクを出力する。
また、基礎となる3D環境のダイナミクスを捉えることもできる。
具体的には、ワークスペース内の任意の3次元点を多視点2次元視覚観測に投影し、視覚基礎モデルから得られる特徴を補間する。
融合ディスクリプタフィールドによって、さまざまなコンテキスト、スタイル、インスタンスを持つ2Dイメージを使用して、フレキシブルな目標仕様が実現される。
これらの記述子フィールドの有効性を評価するため、ゼロショット方式で再配置タスクに適用する。
D$^3$Fields がゼロショット一般化可能な再配置タスクに有効であることを示す。
また、D$3$Fieldsと最先端の3D表現を比較し、有効性と効率を著しく改善した。
関連論文リスト
- DGD: Dynamic 3D Gaussians Distillation [14.7298711927857]
単一の単眼映像を入力として,動的3次元セマンティックラディアンス場を学習する作業に取り組む。
我々の学習したセマンティック・ラディアンス・フィールドは、動的3Dシーンの色と幾何学的性質だけでなく、ポイントごとのセマンティクスをキャプチャする。
動的3Dシーンの外観と意味を統一した3D表現であるDGDを提案する。
論文 参考訳(メタデータ) (2024-05-29T17:52:22Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - BerfScene: Bev-conditioned Equivariant Radiance Fields for Infinite 3D
Scene Generation [96.58789785954409]
本研究では,同変放射場と鳥眼視図のガイダンスを組み込んだ実用的で効率的な3次元表現を提案する。
局所的なシーンを合成し、スムーズな一貫性で縫い合わせることで、大規模で無限スケールの3Dシーンを作ります。
論文 参考訳(メタデータ) (2023-12-04T18:56:10Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Exploiting the Complementarity of 2D and 3D Networks to Address
Domain-Shift in 3D Semantic Segmentation [14.30113021974841]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。
可能な解決策は、3D情報とRGBカメラのような異なるモダリティを特徴とするセンサーから得られる他の情報とを組み合わせることである。
最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2D情報と3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを利用する。
論文 参考訳(メタデータ) (2023-04-06T10:59:43Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Neural Descriptor Fields: SE(3)-Equivariant Object Representations for
Manipulation [75.83319382105894]
対象と対象の相対的なポーズを符号化するオブジェクト表現であるニューラル・ディスクリプタ・フィールド(NDF)を提案する。
NDFは、専門家ラベル付きキーポイントに依存しない3D自動エンコーディングタスクを通じて、自己教師型で訓練される。
我々のパフォーマンスは、オブジェクトインスタンスと6-DoFオブジェクトの両方のポーズを一般化し、2Dディスクリプタに依存する最近のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2021-12-09T18:57:15Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。