論文の概要: On the Generalization Capabilities, Design Choices and Limitations of Keypoint Imitation Learning
- arxiv url: http://arxiv.org/abs/2605.26649v1
- Date: Tue, 26 May 2026 07:31:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.731798
- Title: On the Generalization Capabilities, Design Choices and Limitations of Keypoint Imitation Learning
- Title(参考訳): キーポイント模倣学習の一般化能力, 設計選択, 限界について
- Authors: Thomas Lips, Marco Moletta, Michael C. Welle, Danica Kragic, Francis wyffels,
- Abstract要約: RGBベースの模倣学習は、見えないオブジェクトやシーンに一般化するために多くのデモを必要とする。
ビジュアルファウンデーションモデルは、キーポイントのワンショット抽出により、そのような表現を提供する。
キーポイント模倣学習(KIL)に関する従来の研究のアプローチを組み合わせて,実践的ガイドラインを提供するための設計選択について検討する。
- 参考スコア(独自算出の注目度): 12.166875620433075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: RGB-based imitation learning requires many demonstrations to generalize to unseen objects or scenes, motivating research into intermediate representations to improve generalization for robotic manipulation. Visual foundation models enable one-shot extraction of keypoints to provide such representation. However, it remains unclear how to integrate them into imitation learning optimally and when they outperform alternative representations. We combine approaches from previous works on keypoint imitation learning (KIL) and investigate several design choices to provide practical guidelines. Using over 2000 real-world rollouts, we also assess the generalization capabilities of KIL to unseen objects and scene variations. KIL achieves a 75% overall success rate across five tasks, significantly outperforming the RGB baseline (47%) and performing on par with S2-diffusion (73%). Finally, we explore the limitations of the foundation models used for keypoint extraction and extend KIL to tasks with multiple object instances. Our results confirm KIL as a data-efficient approach for robot learning, though it does not outperform alternative representations and inherits limitations of the foundation models used for keypoint extraction. All rollout videos, demonstrations, and results are available at https://kil-manipulation.github.io/.
- Abstract(参考訳): RGBベースの模倣学習は、見えない物体やシーンに一般化するために多くのデモンストレーションを必要とし、中間表現の研究を動機付け、ロボット操作の一般化を改善する。
ビジュアルファウンデーションモデルは、キーポイントのワンショット抽出により、そのような表現を提供する。
しかし、それらを模倣学習にどのように組み込むか、また、それが代替表現より優れているかは、いまだ不明である。
キーポイント模倣学習(KIL)に関する従来の研究のアプローチを組み合わせて,実践的ガイドラインを提供するための設計選択について検討する。
実世界の2000以上のロールアウトを用いて、KILのオブジェクトやシーンのバリエーションを可視化するための一般化能力も評価する。
KILは5つのタスクで全体の75%の成功率を実現し、RGBベースライン(47%)を著しく上回り、S2拡散(73%)と同等のパフォーマンスを実現している。
最後に、キーポイント抽出に使用される基礎モデルの制限について検討し、KILを複数のオブジェクトインスタンスを持つタスクに拡張する。
本研究は,キーポイント抽出に使用する基礎モデルの制約を継承し,代替表現に勝るものではないものの,ロボット学習におけるデータ効率のよいアプローチとしてKILを確認した。
すべてのロールアウトビデオ、デモ、結果はhttps://kil-manipulation.github.io/.com/で公開されている。
関連論文リスト
- Learning Action Manifold with Multi-view Latent Priors for Robotic Manipulation [67.16145181790522]
本稿では,視覚・言語・行動モデル(VLA)における空間認識と操作の課題に取り組む。
幾何学的ガイダンスに基づいて多視点特徴を整列する幾何誘導型ゲート変換器(G3T)を提案する。
動作学習効率を向上させるために,有効な動作多様体上での動作を直接予測するアクション・マニフォールド・ラーニング(AML)を導入する。
論文 参考訳(メタデータ) (2026-05-12T09:21:29Z) - Human-to-Robot Interaction: Learning from Video Demonstration for Robot Imitation [5.967530183571141]
人間とロボットの模倣学習パイプラインは、ロボットが非構造化ビデオデモから直接操作スキルを取得することを可能にする。
鍵となる革新は、学習プロセスを2つの異なる段階に分離するモジュラーフレームワークである。
ロボット操作では,全ての動作の平均成功率は87.5%であり,タスク達成で100%,複雑なピック・アンド・プレイス操作で90%に達する。
論文 参考訳(メタデータ) (2026-02-22T13:26:27Z) - Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Decoupling Skill Learning from Robotic Control for Generalizable Object
Manipulation [35.34044822433743]
ロボット操作の最近の研究は、様々なタスクに取り組む可能性を示している。
これは関節制御のための高次元の作用空間によるものであると推測する。
本稿では,「何をすべきか」を「どうやるか」から「どうやるか」を学習するタスクを,別のアプローチで分離する。
ロボットキネマティック・コントロールは、作業空間のゴールに到達するために高次元の関節運動を実行するように最適化されている。
論文 参考訳(メタデータ) (2023-03-07T16:31:13Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for
End-to-End Visual Robotic Manipulation Learning [2.8388425545775386]
我々は,ポイントクラウド入力からの視覚ロボット操作のための終端SE(3)-同変モデルを提案する。
我々のモデルは、事前の知識がなくてもゼロから学習できることを示します。
論文 参考訳(メタデータ) (2022-06-16T17:26:06Z) - End-to-end Reinforcement Learning of Robotic Manipulation with Robust
Keypoints Representation [7.374994747693731]
本稿では,ロバストかつ効率的なキーポイント表現を用いて,ロボット操作タスクのためのエンドツーエンド強化学習フレームワークを提案する。
提案手法は,自己教師型オートエンコーダアーキテクチャを用いて,カメラ画像からキーポイントを状態表現として学習する。
本研究では,ロボット操作作業におけるロボット操作の有効性を,異なるシナリオで示す。
論文 参考訳(メタデータ) (2022-02-12T09:58:09Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。