論文の概要: SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous
Manipulation
- arxiv url: http://arxiv.org/abs/2310.16838v1
- Date: Wed, 25 Oct 2023 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 13:02:52.305275
- Title: SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous
Manipulation
- Title(参考訳): SparseDFF:ワンショットデキスタラスマニピュレーションのためのスパースビュー機能蒸留
- Authors: Qianxu Wang, Haotong Zhang, Congyue Deng, Yang You, Hao Dong, Yixin
Zhu, Leonidas Guibas
- Abstract要約: 大規模2次元視覚モデルを用いて,多視点画像から意味的特徴を抽出するDFF(Distilled Feature Field)を開発した。
スパースRGBD観測からビュー一貫性を持つ3次元DFFを得るための新しい手法であるスパースDFFを紹介する。
具体的には、画像の特徴を3Dポイントクラウドにマッピングし、3D空間を伝播することで、高密度な特徴場を確立する。
- 参考スコア(独自算出の注目度): 27.90055403772258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans excel at transferring manipulation skills across diverse object
shapes, poses, and appearances due to their understanding of semantic
correspondences between different instances. To endow robots with a similar
high-level understanding, we develop a Distilled Feature Field (DFF) for 3D
scenes, leveraging large 2D vision models to distill semantic features from
multiview images. While current research demonstrates advanced performance in
reconstructing DFFs from dense views, the development of learning a DFF from
sparse views is relatively nascent, despite its prevalence in numerous
manipulation tasks with fixed cameras. In this work, we introduce SparseDFF, a
novel method for acquiring view-consistent 3D DFFs from sparse RGBD
observations, enabling one-shot learning of dexterous manipulations that are
transferable to novel scenes. Specifically, we map the image features to the 3D
point cloud, allowing for propagation across the 3D space to establish a dense
feature field. At the core of SparseDFF is a lightweight feature refinement
network, optimized with a contrastive loss between pairwise views after
back-projecting the image features onto the 3D point cloud. Additionally, we
implement a point-pruning mechanism to augment feature continuity within each
local neighborhood. By establishing coherent feature fields on both source and
target scenes, we devise an energy function that facilitates the minimization
of feature discrepancies w.r.t. the end-effector parameters between the
demonstration and the target manipulation. We evaluate our approach using a
dexterous hand, mastering real-world manipulations on both rigid and deformable
objects, and showcase robust generalization in the face of object and
scene-context variations.
- Abstract(参考訳): 人間は、異なるインスタンス間の意味的対応を理解するため、さまざまなオブジェクトの形状、ポーズ、外観の操作スキルの伝達に長けている。
ロボットに類似した高レベルの理解を与えるため,大規模な2次元視覚モデルを用いて多視点画像から意味的特徴を抽出するDFF(Distilled Feature Field)を開発した。
現在の研究では、密度の高い視点からDFFを再構築する上での高度な性能を示しているが、固定カメラによる操作タスクが数多く行われているにもかかわらず、疎い視点からDFFを学習する開発は比較的初期段階にある。
本稿では,sparsedffという,sparse rgbd観察から視野に一貫性のある3次元dffを得る新しい方法を紹介し,新しいシーンに転送可能なデクスタース操作のワンショット学習を可能にする。
具体的には,画像の特徴を3Dポイントクラウドにマッピングすることで,高密度な特徴場を確立することができる。
SparseDFFのコアとなる軽量機能改善ネットワークは、3Dポイントクラウドにイメージ機能をバックプロジェクションした後、ペアワイズビュー間の対照的な損失に最適化されている。
さらに,各地域における特徴継続性を高めるためのポイントプルーニング機構を実装した。
音源と対象シーンの両方にコヒーレントな特徴場を確立することにより、実演と対象操作の間の終端効果パラメータを最小化するためのエネルギー関数を考案する。
このアプローチをデクスタラスハンドを用いて評価し,剛体と変形可能なオブジェクトの両方で実世界の操作をマスタし,オブジェクトとシーンコンテキストのバリエーションに対してロバストな一般化を示す。
関連論文リスト
- Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Multi-View Object Pose Refinement With Differentiable Renderer [22.040014384283378]
本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。
これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。
合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を報告した。
論文 参考訳(メタデータ) (2022-07-06T17:02:22Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud
Object Detection [64.2159881697615]
3Dポイント雲からの物体検出は依然として難しい課題だが、最近の研究ではディープラーニング技術によって封筒を推し進めている。
本稿では,特徴表現の堅牢性を高めるために,ドメイン適応のようなアプローチを提案する。
我々の単純で効果的なアプローチは、3Dポイントクラウドオブジェクト検出の性能を根本的に向上させ、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-06-08T05:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。