論文の概要: LensDFF: Language-enhanced Sparse Feature Distillation for Efficient Few-Shot Dexterous Manipulation
- arxiv url: http://arxiv.org/abs/2503.03890v1
- Date: Wed, 05 Mar 2025 20:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 15:57:51.448724
- Title: LensDFF: Language-enhanced Sparse Feature Distillation for Efficient Few-Shot Dexterous Manipulation
- Title(参考訳): LensDFF : 難治性難治性デキスタラスマニピュレーションのための言語付きスパース蒸留法
- Authors: Qian Feng, David S. Martinez Lema, Jianxiang Feng, Zhaopeng Chen, Alois Knoll,
- Abstract要約: 数発のデモから巧妙な操作を学ぶことは、先進的なロボットシステムにとって重要な課題である。
本稿では,LensDFF(Language-ENhanced Sparse Distilled Feature Field)を提案する。
デモにグリッププリミティブを組み込んだ数発のデクスタラスな操作フレームワークを導入し,安定かつ高デクスタラスなグリップを生成する。
- 参考スコア(独自算出の注目度): 7.5860067778283335
- License:
- Abstract: Learning dexterous manipulation from few-shot demonstrations is a significant yet challenging problem for advanced, human-like robotic systems. Dense distilled feature fields have addressed this challenge by distilling rich semantic features from 2D visual foundation models into the 3D domain. However, their reliance on neural rendering models such as Neural Radiance Fields (NeRF) or Gaussian Splatting results in high computational costs. In contrast, previous approaches based on sparse feature fields either suffer from inefficiencies due to multi-view dependencies and extensive training or lack sufficient grasp dexterity. To overcome these limitations, we propose Language-ENhanced Sparse Distilled Feature Field (LensDFF), which efficiently distills view-consistent 2D features onto 3D points using our novel language-enhanced feature fusion strategy, thereby enabling single-view few-shot generalization. Based on LensDFF, we further introduce a few-shot dexterous manipulation framework that integrates grasp primitives into the demonstrations to generate stable and highly dexterous grasps. Moreover, we present a real2sim grasp evaluation pipeline for efficient grasp assessment and hyperparameter tuning. Through extensive simulation experiments based on the real2sim pipeline and real-world experiments, our approach achieves competitive grasping performance, outperforming state-of-the-art approaches.
- Abstract(参考訳): 数発のデモから巧妙な操作を学ぶことは、高度な人間のようなロボットシステムにとって重要な課題だが、難しい問題だ。
2次元視覚基礎モデルからリッチなセマンティックな特徴を3Dドメインに蒸留することで、この課題に対処している。
しかし、Neural Radiance Fields (NeRF) や Gaussian Splatting といったニューラルレンダリングモデルに依存しているため、計算コストが高い。
対照的に、スパース機能フィールドに基づく以前のアプローチは、多視点依存と広範囲のトレーニング、あるいは十分な把握精度の欠如により、非効率に悩まされる。
これらの制約を克服するため,LensDFF (Language-ENhanced Sparse Distilled Feature Field) を提案する。
また,LensDFFをベースとした数発のデクスタラスな操作フレームワークを導入し,実演にグリッププリミティブを組み込んで,安定かつ高デクスタラスなグリップを生成する。
さらに,効率的なグリップアセスメントとハイパーパラメータチューニングのための実2simグリップアセスメント評価パイプラインを提案する。
実際の2simパイプラインと実世界の実験に基づく広範囲なシミュレーション実験を通じて,本手法は競争的把握性能,最先端の手法よりも優れた性能を実現する。
関連論文リスト
- Introducing 3D Representation for Medical Image Volume-to-Volume Translation via Score Fusion [3.3559609260669303]
Score-Fusionは、垂直に訓練された2次元拡散モデルをスコア関数空間に組み込むことで、3次元表現を効果的に学習する新しいボリューム変換モデルである。
Score-Fusionは,3次元医用画像の高分解能・モダリティ変換において,高い精度と容積忠実性が得られることを示す。
論文 参考訳(メタデータ) (2025-01-13T15:54:21Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Binocular-Guided 3D Gaussian Splatting with View Consistency for Sparse View Synthesis [53.702118455883095]
本稿では,ガウススプラッティングを用いたスパースビューから新しいビューを合成する新しい手法を提案する。
私たちのキーとなるアイデアは、両眼画像間の両眼立体的一貫性に固有の自己超越を探索することにあります。
我々の手法は最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-10-24T15:10:27Z) - FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。
提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。
また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - E2ENet: Dynamic Sparse Feature Fusion for Accurate and Efficient 3D Medical Image Segmentation [34.865695471451886]
E2ENet(Efficient to Efficient Network)と呼ばれる3次元医用画像分割モデルを提案する。
パラメトリックと計算効率の2つの設計が組み込まれている。
さまざまなリソース制約に対して、正確性と効率性のトレードオフを一貫して達成します。
論文 参考訳(メタデータ) (2023-12-07T22:13:37Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。