論文の概要: SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2310.16838v2
- Date: Mon, 18 Mar 2024 07:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:22:50.600955
- Title: SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous Manipulation
- Title(参考訳): SparseDFF:ワンショットデキスタラスマニピュレーションのためのスパースビュー機能蒸留
- Authors: Qianxu Wang, Haotong Zhang, Congyue Deng, Yang You, Hao Dong, Yixin Zhu, Leonidas Guibas,
- Abstract要約: SparseDFFは、大きな2次元視覚モデルを用いて、スパースRGBD画像から意味的特徴を抽出する3次元シーンのための新しいDFFである。
SparseDFFはビュー一貫性を持つ3D DFFを生成し、デクスタラスな操作の効率的なワンショット学習を可能にする。
剛性オブジェクトと変形可能なオブジェクトの両方を操作できることを証明し、オブジェクトとシーンのバリエーションをまたいだ重要な一般化能力を示す。
- 参考スコア(独自算出の注目度): 26.568269040388145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans demonstrate remarkable skill in transferring manipulation abilities across objects of varying shapes, poses, and appearances, a capability rooted in their understanding of semantic correspondences between different instances. To equip robots with a similar high-level comprehension, we present SparseDFF, a novel DFF for 3D scenes utilizing large 2D vision models to extract semantic features from sparse RGBD images, a domain where research is limited despite its relevance to many tasks with fixed-camera setups. SparseDFF generates view-consistent 3D DFFs, enabling efficient one-shot learning of dexterous manipulations by mapping image features to a 3D point cloud. Central to SparseDFF is a feature refinement network, optimized with a contrastive loss between views and a point-pruning mechanism for feature continuity. This facilitates the minimization of feature discrepancies w.r.t. end-effector parameters, bridging demonstrations and target manipulations. Validated in real-world scenarios with a dexterous hand, SparseDFF proves effective in manipulating both rigid and deformable objects, demonstrating significant generalization capabilities across object and scene variations.
- Abstract(参考訳): 人間は、様々な形状、ポーズ、外観のオブジェクト間で操作能力を伝達する素晴らしいスキルを示し、それは異なるインスタンス間の意味的対応を理解することに根ざしている。
SparseDFFは、大きな2次元視覚モデルを用いて、スパースRGBD画像から意味的特徴を抽出する3次元シーンのための新しいDFFである。
SparseDFFは、画像特徴を3Dポイントクラウドにマッピングすることで、デクスタラス操作の効率的なワンショット学習を可能にする、ビュー一貫性の3D DFFを生成する。
Central to SparseDFFは機能改善ネットワークであり、ビュー間の対照的な損失と機能継続のためのポイントプルーニング機構に最適化されている。
これにより、機能不一致w.r.t.エンドエフェクタパラメータ、ブリッジングデモ、ターゲット操作の最小化が容易になる。
SparseDFFは実世界のシナリオにおいて、厳密なオブジェクトと変形可能なオブジェクトの両方を操作できることを証明し、オブジェクトとシーンのバリエーションをまたいだ重要な一般化能力を示す。
関連論文リスト
- Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping [34.98831146003579]
被写体と文脈のバリエーションのある新しいシーンに、巧妙なつかみをワンショットで移動させることは、難しい問題である。
本稿では,3次元空間における意味認識型高次特徴体を表現するためのテクスチュラルアテンション場を提案する。
論文 参考訳(メタデータ) (2024-10-30T14:06:51Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Multi-View Object Pose Refinement With Differentiable Renderer [22.040014384283378]
本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。
これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。
合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を報告した。
論文 参考訳(メタデータ) (2022-07-06T17:02:22Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud
Object Detection [64.2159881697615]
3Dポイント雲からの物体検出は依然として難しい課題だが、最近の研究ではディープラーニング技術によって封筒を推し進めている。
本稿では,特徴表現の堅牢性を高めるために,ドメイン適応のようなアプローチを提案する。
我々の単純で効果的なアプローチは、3Dポイントクラウドオブジェクト検出の性能を根本的に向上させ、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-06-08T05:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。