論文の概要: D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable
Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2309.16118v2
- Date: Sun, 8 Oct 2023 21:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:59:38.213254
- Title: D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable
Robotic Manipulation
- Title(参考訳): d$^3$fields: ゼロショット汎用ロボット操作のための動的3次元ディスクリプタフィールド
- Authors: Yixuan Wang, Zhuoran Li, Mingtong Zhang, Katherine Driggs-Campbell,
Jiajun Wu, Li Fei-Fei, Yunzhu Li
- Abstract要約: D$3$Fields - 動的3D記述子フィールドを導入します。
これらのフィールドは、基礎となる3D環境のダイナミクスを捉え、セマンティックな特徴とインスタンスマスクの両方をエンコードする。
D$3$Fieldsは、ゼロショットロボット操作タスクの汎用性と有効性の両方を示す。
- 参考スコア(独自算出の注目度): 34.31127678066616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene representation has been a crucial design choice in robotic manipulation
systems. An ideal representation should be 3D, dynamic, and semantic to meet
the demands of diverse manipulation tasks. However, previous works often lack
all three properties simultaneously. In this work, we introduce D$^3$Fields -
dynamic 3D descriptor fields. These fields capture the dynamics of the
underlying 3D environment and encode both semantic features and instance masks.
Specifically, we project arbitrary 3D points in the workspace onto multi-view
2D visual observations and interpolate features derived from foundational
models. The resulting fused descriptor fields allow for flexible goal
specifications using 2D images with varied contexts, styles, and instances. To
evaluate the effectiveness of these descriptor fields, we apply our
representation to a wide range of robotic manipulation tasks in a zero-shot
manner. Through extensive evaluation in both real-world scenarios and
simulations, we demonstrate that D$^3$Fields are both generalizable and
effective for zero-shot robotic manipulation tasks. In quantitative comparisons
with state-of-the-art dense descriptors, such as Dense Object Nets and DINO,
D$^3$Fields exhibit significantly better generalization abilities and
manipulation accuracy.
- Abstract(参考訳): シーン表現はロボット操作システムにおいて重要な設計選択である。
理想的な表現は、多様な操作タスクの要求を満たすために、3D、ダイナミック、セマンティックであるべきです。
しかし、以前の作品は同時に3つの性質を欠いていることが多い。
本研究では,d$^3$fieldsdynamic 3dディスクリプタフィールドを導入する。
これらのフィールドは基盤となる3d環境のダイナミクスをキャプチャし、セマンティック機能とインスタンスマスクの両方をエンコードする。
具体的には,ワークスペース内の任意の3次元点を多視点2次元視覚観測に投影し,基礎モデルから得られる特徴を補間する。
融合ディスクリプタフィールドは、さまざまなコンテキスト、スタイル、インスタンスを持つ2Dイメージを使用してフレキシブルな目標仕様を可能にする。
これらの記述子フィールドの有効性を評価するため、ゼロショット方式で幅広いロボット操作タスクに我々の表現を適用した。
実世界のシナリオとシミュレーションの両方において、D$^3$Fieldsは一般化可能であり、ゼロショットロボット操作タスクに有効であることを示す。
Dense Object NetsやDINOのような最先端の高密度記述子と比較すると、D$3$Fieldsはより優れた一般化能力と操作精度を示す。
関連論文リスト
- g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - DGD: Dynamic 3D Gaussians Distillation [14.7298711927857]
単一の単眼映像を入力として,動的3次元セマンティックラディアンス場を学習する作業に取り組む。
我々の学習したセマンティック・ラディアンス・フィールドは、動的3Dシーンの色と幾何学的性質だけでなく、ポイントごとのセマンティクスをキャプチャする。
動的3Dシーンの外観と意味を統一した3D表現であるDGDを提案する。
論文 参考訳(メタデータ) (2024-05-29T17:52:22Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Exploiting the Complementarity of 2D and 3D Networks to Address
Domain-Shift in 3D Semantic Segmentation [14.30113021974841]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。
可能な解決策は、3D情報とRGBカメラのような異なるモダリティを特徴とするセンサーから得られる他の情報とを組み合わせることである。
最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2D情報と3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを利用する。
論文 参考訳(メタデータ) (2023-04-06T10:59:43Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Neural Descriptor Fields: SE(3)-Equivariant Object Representations for
Manipulation [75.83319382105894]
対象と対象の相対的なポーズを符号化するオブジェクト表現であるニューラル・ディスクリプタ・フィールド(NDF)を提案する。
NDFは、専門家ラベル付きキーポイントに依存しない3D自動エンコーディングタスクを通じて、自己教師型で訓練される。
我々のパフォーマンスは、オブジェクトインスタンスと6-DoFオブジェクトの両方のポーズを一般化し、2Dディスクリプタに依存する最近のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2021-12-09T18:57:15Z) - CoCoNets: Continuous Contrastive 3D Scene Representations [21.906643302668716]
本稿では,RGBとRGB-Dの画像とビデオから非モーダルな3D特徴表現を自己監督的に学習する。
得られた3次元視覚特徴表現は,オブジェクトやシーンにまたがって効果的にスケールし,入力視点から逸脱した情報を想像し,時間とともにオブジェクトを追跡し,意味的に関連したオブジェクトを3dで調整し,3dオブジェクト検出を改善する。
論文 参考訳(メタデータ) (2021-04-08T15:50:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。