論文の概要: ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2409.01652v1
- Date: Tue, 3 Sep 2024 06:45:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:43:06.864546
- Title: ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation
- Title(参考訳): ReKep:ロボットマニピュレーションのための関係キーポイント制約の時空間推論
- Authors: Wenlong Huang, Chen Wang, Yunzhu Li, Ruohan Zhang, Li Fei-Fei,
- Abstract要約: キーポイント制約(キーポイント制約、英: Keypoint Constraints)は、ロボット操作における制約を視覚的に表現した表現である。
車輪付きシングルアームプラットフォームと静止式デュアルアームプラットフォーム上でのシステム実装について述べる。
- 参考スコア(独自算出の注目度): 31.211870350260703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representing robotic manipulation tasks as constraints that associate the robot and the environment is a promising way to encode desired robot behaviors. However, it remains unclear how to formulate the constraints such that they are 1) versatile to diverse tasks, 2) free of manual labeling, and 3) optimizable by off-the-shelf solvers to produce robot actions in real-time. In this work, we introduce Relational Keypoint Constraints (ReKep), a visually-grounded representation for constraints in robotic manipulation. Specifically, ReKep is expressed as Python functions mapping a set of 3D keypoints in the environment to a numerical cost. We demonstrate that by representing a manipulation task as a sequence of Relational Keypoint Constraints, we can employ a hierarchical optimization procedure to solve for robot actions (represented by a sequence of end-effector poses in SE(3)) with a perception-action loop at a real-time frequency. Furthermore, in order to circumvent the need for manual specification of ReKep for each new task, we devise an automated procedure that leverages large vision models and vision-language models to produce ReKep from free-form language instructions and RGB-D observations. We present system implementations on a wheeled single-arm platform and a stationary dual-arm platform that can perform a large variety of manipulation tasks, featuring multi-stage, in-the-wild, bimanual, and reactive behaviors, all without task-specific data or environment models. Website at https://rekep-robot.github.io.
- Abstract(参考訳): ロボット操作タスクをロボットと環境を関連付ける制約として表現することは、望ましいロボット動作をエンコードする有望な方法である。
しかし、どのようにして制約を定式化するかは定かではない。
1)多種多様な課題に対して多様である。
2)手作業によるラベリングが不要で、
3) ロボットの動作をリアルタイムで生成するために, 既成の解法が最適である。
本稿では,ロボット操作における制約を視覚的に表現するRelational Keypoint Constraints (ReKep)を紹介する。
具体的には、ReKepは環境内の3Dキーポイントのセットを数値的なコストにマッピングするPython関数として表現される。
操作タスクをリレーショナルキーポイント制約のシーケンスとして表現することにより、ロボット動作(SE(3)におけるエンドエフェクタポーズのシーケンスで表される)をリアルタイムに知覚行動ループで解決する階層的な最適化手順を適用できることを実証する。
さらに,新しいタスク毎に手動でReKepの仕様を作成する必要性を回避するため,大規模な視覚モデルと視覚言語モデルを活用して,自由形式の言語命令とRGB-D観察からReKepを生成する自動手順を考案した。
我々は車輪付き単腕プラットフォームと静止式双腕プラットフォームにシステム実装を行い、多段式、内輪型、双対型、リアクティブな動作をタスク固有のデータや環境モデルなしで、様々な操作タスクを行えるようにした。
公式サイト - https://rekep-robot.github.io
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Scaling Manipulation Learning with Visual Kinematic Chain Prediction [32.99644520625179]
本研究では,多様な環境下でのロボット学習における準静的動作の高精度かつ普遍的な表現として,視覚キネマティクス連鎖を提案する。
我々は,Calvin,RLBench,Open-X,および実際のロボット操作タスクにおいて,BC変換器に対するVKTの優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-12T03:10:27Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。