論文の概要: SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous
Manipulation
- arxiv url: http://arxiv.org/abs/2310.16838v1
- Date: Wed, 25 Oct 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:02:52.305275
- Title: SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous
Manipulation
- Title(参考訳): SparseDFF:ワンショットデキスタラスマニピュレーションのためのスパースビュー機能蒸留
- Authors: Qianxu Wang, Haotong Zhang, Congyue Deng, Yang You, Hao Dong, Yixin
Zhu, Leonidas Guibas
- Abstract要約: 大規模2次元視覚モデルを用いて,多視点画像から意味的特徴を抽出するDFF(Distilled Feature Field)を開発した。
スパースRGBD観測からビュー一貫性を持つ3次元DFFを得るための新しい手法であるスパースDFFを紹介する。
具体的には、画像の特徴を3Dポイントクラウドにマッピングし、3D空間を伝播することで、高密度な特徴場を確立する。
- 参考スコア(独自算出の注目度): 27.90055403772258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans excel at transferring manipulation skills across diverse object
shapes, poses, and appearances due to their understanding of semantic
correspondences between different instances. To endow robots with a similar
high-level understanding, we develop a Distilled Feature Field (DFF) for 3D
scenes, leveraging large 2D vision models to distill semantic features from
multiview images. While current research demonstrates advanced performance in
reconstructing DFFs from dense views, the development of learning a DFF from
sparse views is relatively nascent, despite its prevalence in numerous
manipulation tasks with fixed cameras. In this work, we introduce SparseDFF, a
novel method for acquiring view-consistent 3D DFFs from sparse RGBD
observations, enabling one-shot learning of dexterous manipulations that are
transferable to novel scenes. Specifically, we map the image features to the 3D
point cloud, allowing for propagation across the 3D space to establish a dense
feature field. At the core of SparseDFF is a lightweight feature refinement
network, optimized with a contrastive loss between pairwise views after
back-projecting the image features onto the 3D point cloud. Additionally, we
implement a point-pruning mechanism to augment feature continuity within each
local neighborhood. By establishing coherent feature fields on both source and
target scenes, we devise an energy function that facilitates the minimization
of feature discrepancies w.r.t. the end-effector parameters between the
demonstration and the target manipulation. We evaluate our approach using a
dexterous hand, mastering real-world manipulations on both rigid and deformable
objects, and showcase robust generalization in the face of object and
scene-context variations.
- Abstract(参考訳): 人間は、異なるインスタンス間の意味的対応を理解するため、さまざまなオブジェクトの形状、ポーズ、外観の操作スキルの伝達に長けている。
ロボットに類似した高レベルの理解を与えるため,大規模な2次元視覚モデルを用いて多視点画像から意味的特徴を抽出するDFF(Distilled Feature Field)を開発した。
現在の研究では、密度の高い視点からDFFを再構築する上での高度な性能を示しているが、固定カメラによる操作タスクが数多く行われているにもかかわらず、疎い視点からDFFを学習する開発は比較的初期段階にある。
本稿では,sparsedffという,sparse rgbd観察から視野に一貫性のある3次元dffを得る新しい方法を紹介し,新しいシーンに転送可能なデクスタース操作のワンショット学習を可能にする。
具体的には,画像の特徴を3Dポイントクラウドにマッピングすることで,高密度な特徴場を確立することができる。
SparseDFFのコアとなる軽量機能改善ネットワークは、3Dポイントクラウドにイメージ機能をバックプロジェクションした後、ペアワイズビュー間の対照的な損失に最適化されている。
さらに,各地域における特徴継続性を高めるためのポイントプルーニング機構を実装した。
音源と対象シーンの両方にコヒーレントな特徴場を確立することにより、実演と対象操作の間の終端効果パラメータを最小化するためのエネルギー関数を考案する。
このアプローチをデクスタラスハンドを用いて評価し,剛体と変形可能なオブジェクトの両方で実世界の操作をマスタし,オブジェクトとシーンコンテキストのバリエーションに対してロバストな一般化を示す。
関連論文リスト
- Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural
Calibration [99.44264155894376]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性変換を推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - Point Cloud Self-supervised Learning via 3D to Multi-view Masked
Autoencoder [21.73287941143304]
Multi-Modality Masked AutoEncoders (MAE) 法は2次元画像と3次元点雲の両方を事前学習に利用している。
本稿では、3次元から多視点のマスク付きオートエンコーダを用いて、3次元点雲のマルチモーダル特性をフル活用する手法を提案する。
提案手法は,様々な下流タスクにおいて,最先端のタスクよりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2023-11-17T22:10:03Z) - Neural Feature Fusion Fields: 3D Distillation of Self-Supervised 2D
Image Representations [92.88108411154255]
本稿では,3次元シーンとして再構成可能な複数画像の解析に後者を適用する際に,高密度な2次元画像特徴抽出器を改善する手法を提案する。
本手法は,手動ラベルを使わずに,シーン固有のニューラルネットワークの文脈における意味理解を可能にするだけでなく,自己監督型2Dベースラインよりも一貫して改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-07T23:24:09Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D
Point Cloud Understanding [2.8661021832561757]
CrossPointは、転送可能な3Dポイントクラウド表現を学習するための、単純なクロスモーダルコントラスト学習アプローチである。
提案手法は,従来の教師なし学習手法よりも,3次元オブジェクト分類やセグメンテーションなど,さまざまな下流タスクにおいて優れていた。
論文 参考訳(メタデータ) (2022-03-01T18:59:01Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud
Object Detection [64.2159881697615]
3Dポイント雲からの物体検出は依然として難しい課題だが、最近の研究ではディープラーニング技術によって封筒を推し進めている。
本稿では,特徴表現の堅牢性を高めるために,ドメイン適応のようなアプローチを提案する。
我々の単純で効果的なアプローチは、3Dポイントクラウドオブジェクト検出の性能を根本的に向上させ、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-06-08T05:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。