論文の概要: SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2310.16838v2
- Date: Mon, 18 Mar 2024 07:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:22:50.600955
- Title: SparseDFF: Sparse-View Feature Distillation for One-Shot Dexterous Manipulation
- Title(参考訳): SparseDFF:ワンショットデキスタラスマニピュレーションのためのスパースビュー機能蒸留
- Authors: Qianxu Wang, Haotong Zhang, Congyue Deng, Yang You, Hao Dong, Yixin Zhu, Leonidas Guibas,
- Abstract要約: SparseDFFは、大きな2次元視覚モデルを用いて、スパースRGBD画像から意味的特徴を抽出する3次元シーンのための新しいDFFである。
SparseDFFはビュー一貫性を持つ3D DFFを生成し、デクスタラスな操作の効率的なワンショット学習を可能にする。
剛性オブジェクトと変形可能なオブジェクトの両方を操作できることを証明し、オブジェクトとシーンのバリエーションをまたいだ重要な一般化能力を示す。
- 参考スコア(独自算出の注目度): 26.568269040388145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans demonstrate remarkable skill in transferring manipulation abilities across objects of varying shapes, poses, and appearances, a capability rooted in their understanding of semantic correspondences between different instances. To equip robots with a similar high-level comprehension, we present SparseDFF, a novel DFF for 3D scenes utilizing large 2D vision models to extract semantic features from sparse RGBD images, a domain where research is limited despite its relevance to many tasks with fixed-camera setups. SparseDFF generates view-consistent 3D DFFs, enabling efficient one-shot learning of dexterous manipulations by mapping image features to a 3D point cloud. Central to SparseDFF is a feature refinement network, optimized with a contrastive loss between views and a point-pruning mechanism for feature continuity. This facilitates the minimization of feature discrepancies w.r.t. end-effector parameters, bridging demonstrations and target manipulations. Validated in real-world scenarios with a dexterous hand, SparseDFF proves effective in manipulating both rigid and deformable objects, demonstrating significant generalization capabilities across object and scene variations.
- Abstract(参考訳): 人間は、様々な形状、ポーズ、外観のオブジェクト間で操作能力を伝達する素晴らしいスキルを示し、それは異なるインスタンス間の意味的対応を理解することに根ざしている。
SparseDFFは、大きな2次元視覚モデルを用いて、スパースRGBD画像から意味的特徴を抽出する3次元シーンのための新しいDFFである。
SparseDFFは、画像特徴を3Dポイントクラウドにマッピングすることで、デクスタラス操作の効率的なワンショット学習を可能にする、ビュー一貫性の3D DFFを生成する。
Central to SparseDFFは機能改善ネットワークであり、ビュー間の対照的な損失と機能継続のためのポイントプルーニング機構に最適化されている。
これにより、機能不一致w.r.t.エンドエフェクタパラメータ、ブリッジングデモ、ターゲット操作の最小化が容易になる。
SparseDFFは実世界のシナリオにおいて、厳密なオブジェクトと変形可能なオブジェクトの両方を操作できることを証明し、オブジェクトとシーンのバリエーションをまたいだ重要な一般化能力を示す。
関連論文リスト
- PEVA-Net: Prompt-Enhanced View Aggregation Network for Zero/Few-Shot Multi-View 3D Shape Recognition [8.15444057380305]
我々は、ゼロ/フェーショットの3D形状認識に対処するために、大きな視覚言語モデルであるCLIPを活用することに重点を置いている。
本稿では,0/fwショット3D形状認識を同時に行うために,Prompt-Enhanced View Aggregation Network (PEVA-Net)を提案する。
論文 参考訳(メタデータ) (2024-04-30T00:16:59Z) - Self-supervised Learning of LiDAR 3D Point Clouds via 2D-3D Neural
Calibration [99.44264155894376]
本稿では,自律走行シーンにおける3次元知覚を高めるための,新しい自己教師型学習フレームワークを提案する。
本稿では,画像とポイントクラウドデータの領域ギャップを埋めるために,学習可能な変換アライメントを提案する。
我々は剛性変換を推定するために密度の高い2D-3D対応を確立する。
論文 参考訳(メタデータ) (2024-01-23T02:41:06Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - Multi-View Object Pose Refinement With Differentiable Renderer [22.040014384283378]
本稿では,合成データの学習方法の改善に焦点をあてた,新しい多視点6 DoFオブジェクトポーズ改善手法を提案する。
これはDPOD検出器に基づいており、各フレーム内のモデル頂点と画像画素との間の密度の高い2D-3D対応を生成する。
合成および実データに基づいて訓練された最先端の手法と比較して優れた性能を報告した。
論文 参考訳(メタデータ) (2022-07-06T17:02:22Z) - Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data [80.14669385741202]
本稿では,自律運転データに適した3次元知覚モデルのための自己教師付き事前学習手法を提案する。
我々は、自動走行装置における同期・校正画像とLidarセンサーの可用性を活用している。
私たちのメソッドは、ポイントクラウドや画像アノテーションを一切必要としません。
論文 参考訳(メタデータ) (2022-03-30T12:40:30Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object
Detection [39.64891219500416]
3Dオブジェクト検出手法は、シーン内の3Dオブジェクトを表現するために、ボクセルベースまたはポイントベースの特徴を利用する。
本稿では,voxelベースとポイントベースの両方の特徴を有する,新しい単段3次元検出手法を提案する。
論文 参考訳(メタデータ) (2021-04-02T06:34:49Z) - Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud
Object Detection [64.2159881697615]
3Dポイント雲からの物体検出は依然として難しい課題だが、最近の研究ではディープラーニング技術によって封筒を推し進めている。
本稿では,特徴表現の堅牢性を高めるために,ドメイン適応のようなアプローチを提案する。
我々の単純で効果的なアプローチは、3Dポイントクラウドオブジェクト検出の性能を根本的に向上させ、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-06-08T05:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。