論文の概要: SKIL: Semantic Keypoint Imitation Learning for Generalizable Data-efficient Manipulation
- arxiv url: http://arxiv.org/abs/2501.14400v1
- Date: Fri, 24 Jan 2025 11:11:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-27 14:56:17.461444
- Title: SKIL: Semantic Keypoint Imitation Learning for Generalizable Data-efficient Manipulation
- Title(参考訳): SKIL: 一般化可能なデータ効率操作のための意味的キーポイント模倣学習
- Authors: Shengjie Wang, Jiacheng You, Yihang Hu, Jiongye Li, Yang Gao,
- Abstract要約: セマンティック・キーポイント・イミテーション・ラーニング(Semantic Keypoint Imitation Learning, SKIL)は、視覚基礎モデルの助けを借りて意味的キーポイントを自動的に取得するフレームワークである。
SKILは、サンプルの複雑さが著しく低い複雑なロボットタスクの効率的な模倣学習を可能にする。
SKILの平均成功率は70%で、デモは30回に満たない。
- 参考スコア(独自算出の注目度): 12.720334726151739
- License:
- Abstract: Real-world tasks such as garment manipulation and table rearrangement demand robots to perform generalizable, highly precise, and long-horizon actions. Although imitation learning has proven to be an effective approach for teaching robots new skills, large amounts of expert demonstration data are still indispensible for these complex tasks, resulting in high sample complexity and costly data collection. To address this, we propose Semantic Keypoint Imitation Learning (SKIL), a framework which automatically obtain semantic keypoints with help of vision foundation models, and forms the descriptor of semantic keypoints that enables effecient imitation learning of complex robotic tasks with significantly lower sample complexity. In real world experiments, SKIL doubles the performance of baseline methods in tasks such as picking a cup or mouse, while demonstrating exceptional robustness to variations in objects, environmental changes, and distractors. For long-horizon tasks like hanging a towel on a rack where previous methods fail completely, SKIL achieves a mean success rate of 70\% with as few as 30 demonstrations. Furthermore, SKIL naturally supports cross-embodiment learning due to its semantic keypoints abstraction, our experiments demonstrate that even human videos bring considerable improvement to the learning performance. All these results demonstrate the great success of SKIL in achieving data-efficint generalizable robotic learning. Visualizations and code are available at: https://skil-robotics.github.io/SKIL-robotics/.
- Abstract(参考訳): 衣料品の操作やテーブルの並べ替えといった現実的なタスクは、ロボットに一般化可能で、高精度で、長い水平行動の実行を要求する。
模倣学習は、ロボットに新しいスキルを教えるための効果的なアプローチであることが証明されているが、これらの複雑なタスクには、多くの専門家による実証データが依然として不可欠であり、高いサンプルの複雑さと高価なデータ収集をもたらす。
そこで本研究では,セマンティック・キーポイント・イミテーション・ラーニング(SKIL)を提案する。セマンティック・キーポイント・イミテーション・ラーニング(Semantic Keypoint Imitation Learning, SKIL)は,セマンティック・キーポイントを視覚基礎モデルの助けを借りて自動的に獲得し,複雑なロボット作業の効果的な模倣学習を可能にするセマンティック・キーポイント・ディクリプタを形成するフレームワークである。
実世界の実験では、SKILは、カップやマウスを拾うなどのタスクにおけるベースラインメソッドのパフォーマンスを2倍にし、オブジェクトの変動、環境変化、邪魔者に対する例外的な堅牢性を示した。
従来のメソッドが完全に失敗するラックにタオルを掛けたような長時間の作業では、SKILは、最大30回のデモで70\%の成功率を達成する。
さらに、SKILはセマンティックキーポイントの抽象化により、自然にクロスボデーメント学習をサポートし、人間のビデオでさえ学習性能にかなりの改善をもたらすことを示した。
これらの結果は、データ効率の良い汎用ロボット学習を実現する上で、SKILの大きな成功を示している。
可視化とコードは、https://skil-robotics.github.io/SKIL-robotics/.comで入手できる。
関連論文リスト
- Learning Generalizable 3D Manipulation With 10 Demonstrations [16.502781729164973]
10個のデモから操作スキルを学習する新しいフレームワークを提案する。
シミュレーションベンチマークと実世界のロボットシステムの両方に関する広範な実験を通じて、我々のフレームワークを検証する。
この研究は、現実世界のアプリケーションにおいて、効率的で一般化可能な操作スキル学習を前進させる大きな可能性を示している。
論文 参考訳(メタデータ) (2024-11-15T14:01:02Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - VITAL: Visual Teleoperation to Enhance Robot Learning through Human-in-the-Loop Corrections [10.49712834719005]
本稿では,VITAL と呼ばれる双方向操作作業のための低コストな視覚遠隔操作システムを提案する。
われわれのアプローチは、安価なハードウェアとビジュアル処理技術を利用してデモを収集する。
実環境と模擬環境の両方を活用することにより,学習方針の一般化性と堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-30T23:29:47Z) - Offline Imitation Learning Through Graph Search and Retrieval [57.57306578140857]
模倣学習は、ロボットが操作スキルを取得するための強力な機械学習アルゴリズムである。
本稿では,グラフ検索と検索により,最適下実験から学習する,シンプルで効果的なアルゴリズムGSRを提案する。
GSRは、ベースラインに比べて10%から30%高い成功率、30%以上の熟練を達成できる。
論文 参考訳(メタデータ) (2024-07-22T06:12:21Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Hindsight States: Blending Sim and Real Task Elements for Efficient
Reinforcement Learning [61.3506230781327]
ロボット工学では、第一原理から導かれた力学モデルに基づくシミュレーションに基づいて、トレーニングデータを生成する方法がある。
ここでは、力学の複雑さの不均衡を利用して、より標本効率のよい学習を行う。
提案手法をいくつかの課題に対して検証し,既存の近視アルゴリズムと組み合わせた場合の学習改善を実証する。
論文 参考訳(メタデータ) (2023-03-03T21:55:04Z) - Continual Learning from Demonstration of Robotics Skills [5.573543601558405]
ロボットに動きのスキルを教える方法は、一度に1つのスキルのトレーニングに集中する。
本稿では,ハイパーネットとニューラル常微分方程式解法を用いた実験から連続学習へのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-14T16:26:52Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。