論文の概要: Learning Generalizable 3D Manipulation With 10 Demonstrations
- arxiv url: http://arxiv.org/abs/2411.10203v1
- Date: Fri, 15 Nov 2024 14:01:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:37:25.895567
- Title: Learning Generalizable 3D Manipulation With 10 Demonstrations
- Title(参考訳): 10のデモによる一般化可能な3次元マニピュレーションの学習
- Authors: Yu Ren, Yang Cong, Ronghan Chen, Jiahao Long,
- Abstract要約: 10個のデモから操作スキルを学習する新しいフレームワークを提案する。
シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。
この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
- 参考スコア(独自算出の注目度): 16.502781729164973
- License:
- Abstract: Learning robust and generalizable manipulation skills from demonstrations remains a key challenge in robotics, with broad applications in industrial automation and service robotics. While recent imitation learning methods have achieved impressive results, they often require large amounts of demonstration data and struggle to generalize across different spatial variants. In this work, we present a novel framework that learns manipulation skills from as few as 10 demonstrations, yet still generalizes to spatial variants such as different initial object positions and camera viewpoints. Our framework consists of two key modules: Semantic Guided Perception (SGP), which constructs task-focused, spatially aware 3D point cloud representations from RGB-D inputs; and Spatial Generalized Decision (SGD), an efficient diffusion-based decision-making module that generates actions via denoising. To effectively learn generalization ability from limited data, we introduce a critical spatially equivariant training strategy that captures the spatial knowledge embedded in expert demonstrations. We validate our framework through extensive experiments on both simulation benchmarks and real-world robotic systems. Our method demonstrates a 60 percent improvement in success rates over state-of-the-art approaches on a series of challenging tasks, even with substantial variations in object poses and camera viewpoints. This work shows significant potential for advancing efficient, generalizable manipulation skill learning in real-world applications.
- Abstract(参考訳): デモから堅牢で汎用的な操作スキルを学ぶことは、産業自動化やサービスロボティクスに広く応用されているロボット工学において、依然として重要な課題である。
最近の模倣学習法は印象的な結果を得たが、しばしば大量の実演データを必要とし、異なる空間的変種をまたいだ一般化に苦慮する。
本研究では,10個のデモから操作スキルを学習する新しいフレームワークを提案する。
我々のフレームワークは2つの重要なモジュールから構成されている。セマンティックガイドパーセプション(SGP)は、RGB-D入力からタスク中心で空間的に認識される3Dポイントクラウド表現を構築する。
限られたデータから一般化能力を効果的に学習するために,専門家による実験に埋め込まれた空間知識を捉えるための重要な空間不変トレーニング戦略を導入する。
シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。
提案手法は,オブジェクトのポーズやカメラの視点がかなり異なる場合でも,一連の課題に対する最先端のアプローチよりも成功率を60%向上させることを示す。
この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
関連論文リスト
- SKIL: Semantic Keypoint Imitation Learning for Generalizable Data-efficient Manipulation [12.720334726151739]
セマンティック・キーポイント・イミテーション・ラーニング(Semantic Keypoint Imitation Learning, SKIL)は、視覚基礎モデルの助けを借りて意味的キーポイントを自動的に取得するフレームワークである。
SKILは、サンプルの複雑さが著しく低い複雑なロボットタスクの効率的な模倣学習を可能にする。
SKILの平均成功率は70%で、デモは30回に満たない。
論文 参考訳(メタデータ) (2025-01-24T11:11:53Z) - Spatially Visual Perception for End-to-End Robotic Learning [33.490603706207075]
環境変動に対処するために3次元空間表現を利用する映像ベース空間認識フレームワークを提案する。
提案手法は,新しい画像拡張手法であるAugBlenderと,インターネット規模のデータに基づいてトレーニングされた最先端のモノクロ深度推定モデルを統合する。
論文 参考訳(メタデータ) (2024-11-26T14:23:42Z) - SPA: 3D Spatial-Awareness Enables Effective Embodied Representation [20.123243422061048]
具体的AIにおける3次元空間認識の重要性を強調する新しい表現学習フレームワークであるSPAを紹介する。
本研究では,8つのシミュレータにまたがる268のタスクを網羅し,これまでで最も包括的な表現学習の評価を行った。
論文 参考訳(メタデータ) (2024-10-10T17:59:51Z) - EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-07-01T17:09:43Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - Point Cloud Matters: Rethinking the Impact of Different Observation Spaces on Robot Learning [58.69297999175239]
ロボット学習においては、異なるモードの異なる特徴のために観察空間が不可欠である。
本研究では,RGB, RGB-D, 点雲の3つのモードに着目し, 様々な観測空間がロボット学習に与える影響について検討する。
論文 参考訳(メタデータ) (2024-02-04T14:18:45Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。