論文の概要: D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable
Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2309.16118v2
- Date: Sun, 8 Oct 2023 21:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:59:38.213254
- Title: D$^3$Fields: Dynamic 3D Descriptor Fields for Zero-Shot Generalizable
Robotic Manipulation
- Title(参考訳): d$^3$fields: ゼロショット汎用ロボット操作のための動的3次元ディスクリプタフィールド
- Authors: Yixuan Wang, Zhuoran Li, Mingtong Zhang, Katherine Driggs-Campbell,
Jiajun Wu, Li Fei-Fei, Yunzhu Li
- Abstract要約: D$3$Fields - 動的3D記述子フィールドを導入します。
これらのフィールドは、基礎となる3D環境のダイナミクスを捉え、セマンティックな特徴とインスタンスマスクの両方をエンコードする。
D$3$Fieldsは、ゼロショットロボット操作タスクの汎用性と有効性の両方を示す。
- 参考スコア(独自算出の注目度): 34.31127678066616
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene representation has been a crucial design choice in robotic manipulation
systems. An ideal representation should be 3D, dynamic, and semantic to meet
the demands of diverse manipulation tasks. However, previous works often lack
all three properties simultaneously. In this work, we introduce D$^3$Fields -
dynamic 3D descriptor fields. These fields capture the dynamics of the
underlying 3D environment and encode both semantic features and instance masks.
Specifically, we project arbitrary 3D points in the workspace onto multi-view
2D visual observations and interpolate features derived from foundational
models. The resulting fused descriptor fields allow for flexible goal
specifications using 2D images with varied contexts, styles, and instances. To
evaluate the effectiveness of these descriptor fields, we apply our
representation to a wide range of robotic manipulation tasks in a zero-shot
manner. Through extensive evaluation in both real-world scenarios and
simulations, we demonstrate that D$^3$Fields are both generalizable and
effective for zero-shot robotic manipulation tasks. In quantitative comparisons
with state-of-the-art dense descriptors, such as Dense Object Nets and DINO,
D$^3$Fields exhibit significantly better generalization abilities and
manipulation accuracy.
- Abstract(参考訳): シーン表現はロボット操作システムにおいて重要な設計選択である。
理想的な表現は、多様な操作タスクの要求を満たすために、3D、ダイナミック、セマンティックであるべきです。
しかし、以前の作品は同時に3つの性質を欠いていることが多い。
本研究では,d$^3$fieldsdynamic 3dディスクリプタフィールドを導入する。
これらのフィールドは基盤となる3d環境のダイナミクスをキャプチャし、セマンティック機能とインスタンスマスクの両方をエンコードする。
具体的には,ワークスペース内の任意の3次元点を多視点2次元視覚観測に投影し,基礎モデルから得られる特徴を補間する。
融合ディスクリプタフィールドは、さまざまなコンテキスト、スタイル、インスタンスを持つ2Dイメージを使用してフレキシブルな目標仕様を可能にする。
これらの記述子フィールドの有効性を評価するため、ゼロショット方式で幅広いロボット操作タスクに我々の表現を適用した。
実世界のシナリオとシミュレーションの両方において、D$^3$Fieldsは一般化可能であり、ゼロショットロボット操作タスクに有効であることを示す。
Dense Object NetsやDINOのような最先端の高密度記述子と比較すると、D$3$Fieldsはより優れた一般化能力と操作精度を示す。
関連論文リスト
- Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous
Manipulation [27.90055403772258]
大規模2次元視覚モデルを用いて,多視点画像から意味的特徴を抽出するDFF(Distilled Feature Field)を開発した。
スパースRGBD観測からビュー一貫性を持つ3次元DFFを得るための新しい手法であるスパースDFFを紹介する。
具体的には、画像の特徴を3Dポイントクラウドにマッピングし、3D空間を伝播することで、高密度な特徴場を確立する。
論文 参考訳(メタデータ) (2023-10-25T17:59:41Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - Generating Visual Spatial Description via Holistic 3D Scene
Understanding [88.99773815159345]
視覚空間記述(VSD)は、画像内の対象物の空間的関係を記述するテキストを生成することを目的としている。
外部の3Dシーン抽出器を用いて,入力画像の3Dオブジェクトとシーン特徴を抽出する。
対象物の中心となる3次元空間シーングラフ(Go3D-S2G)を構築し,対象物の空間意味を総合的な3次元シーン内にモデル化する。
論文 参考訳(メタデータ) (2023-05-19T15:53:56Z) - Exploiting the Complementarity of 2D and 3D Networks to Address
Domain-Shift in 3D Semantic Segmentation [14.30113021974841]
3Dセマンティックセグメンテーションは、自律運転、ロボット工学、混合現実など、多くの現実世界のアプリケーションにおいて重要なタスクである。
可能な解決策は、3D情報とRGBカメラのような異なるモダリティを特徴とするセンサーから得られる他の情報とを組み合わせることである。
最近のマルチモーダルな3Dセマンティックセグメンテーションネットワークは、2D情報と3D情報を独立に処理する2つのブランチに依存してこれらのモダリティを利用する。
論文 参考訳(メタデータ) (2023-04-06T10:59:43Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - MvDeCor: Multi-view Dense Correspondence Learning for Fine-grained 3D
Segmentation [91.6658845016214]
そこで本研究では,2次元領域における自己教師型手法を,微細な3次元形状分割作業に活用することを提案する。
複数のビューから3次元形状を描画し、コントラスト学習フレームワーク内に密接な対応学習タスクを設置する。
その結果、学習された2次元表現はビュー不変であり、幾何学的に一貫性がある。
論文 参考訳(メタデータ) (2022-08-18T00:48:15Z) - Neural Descriptor Fields: SE(3)-Equivariant Object Representations for
Manipulation [75.83319382105894]
対象と対象の相対的なポーズを符号化するオブジェクト表現であるニューラル・ディスクリプタ・フィールド(NDF)を提案する。
NDFは、専門家ラベル付きキーポイントに依存しない3D自動エンコーディングタスクを通じて、自己教師型で訓練される。
我々のパフォーマンスは、オブジェクトインスタンスと6-DoFオブジェクトの両方のポーズを一般化し、2Dディスクリプタに依存する最近のベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2021-12-09T18:57:15Z) - Learning 3D Dynamic Scene Representations for Robot Manipulation [21.6131570689398]
ロボット操作のための3Dシーン表現は、永続性、完全性、連続性という3つの重要なオブジェクト特性を捉えなければならない。
本研究では3次元動的表現(DSR)を導入し,オブジェクトを同時に検出,追跡,再構成し,そのダイナミクスを予測する。
本稿では,DSRを段階的に構築・洗練するために,複数の相互作用を通して視覚的観察を集約することを学ぶDSR-Netを提案する。
論文 参考訳(メタデータ) (2020-11-03T19:23:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。