論文の概要: OK-Robot: What Really Matters in Integrating Open-Knowledge Models for
Robotics
- arxiv url: http://arxiv.org/abs/2401.12202v2
- Date: Thu, 29 Feb 2024 17:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 17:49:53.566997
- Title: OK-Robot: What Really Matters in Integrating Open-Knowledge Models for
Robotics
- Title(参考訳): OK-Robot:ロボットのためのオープン知識モデルを統合する上で本当に重要なこと
- Authors: Peiqi Liu, Yaswanth Orru, Jay Vakil, Chris Paxton, Nur Muhammad Mahi
Shafiullah, Lerrel Pinto
- Abstract要約: 我々はOK-Robotと呼ばれる新しいオープンナレッジベースのロボティクスフレームワークを開発した。
オブジェクト検出のためのビジョンランゲージモデル(VLM)、移動のためのナビゲーションプリミティブ、オブジェクト操作のためのプリミティブの把握を組み合わせることで、OK-Robotはトレーニングを必要とせずにピック・アンド・ドロップ操作のための統合ソリューションを提供する。
その結果、OK-Robotは、オープンエンドピック・アンド・ドロップタスクにおいて58.5%の成功率を達成した。
- 参考スコア(独自算出の注目度): 26.73838656137223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remarkable progress has been made in recent years in the fields of vision,
language, and robotics. We now have vision models capable of recognizing
objects based on language queries, navigation systems that can effectively
control mobile systems, and grasping models that can handle a wide range of
objects. Despite these advancements, general-purpose applications of robotics
still lag behind, even though they rely on these fundamental capabilities of
recognition, navigation, and grasping. In this paper, we adopt a systems-first
approach to develop a new Open Knowledge-based robotics framework called
OK-Robot. By combining Vision-Language Models (VLMs) for object detection,
navigation primitives for movement, and grasping primitives for object
manipulation, OK-Robot offers a integrated solution for pick-and-drop
operations without requiring any training. To evaluate its performance, we run
OK-Robot in 10 real-world home environments. The results demonstrate that
OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks,
representing a new state-of-the-art in Open Vocabulary Mobile Manipulation
(OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered
environments, OK-Robot's performance increases to 82%. However, the most
important insight gained from OK-Robot is the critical role of nuanced details
when combining Open Knowledge systems like VLMs with robotic modules. Videos of
our experiments and code are available on our website:
https://ok-robot.github.io
- Abstract(参考訳): 近年、視覚、言語、ロボット工学の分野で顕著な進歩を遂げている。
現在、言語クエリに基づくオブジェクトの認識が可能な視覚モデル、モバイルシステムを効果的に制御できるナビゲーションシステム、広範囲のオブジェクトを扱うことができるモデルを把握しています。
こうした進歩にもかかわらず、ロボット工学の汎用応用は、認識、ナビゲーション、把握といった基本的な能力に依存しているものの、まだ遅れている。
本稿では,OK-Robotと呼ばれる新しいオープン知識ベースのロボット工学フレームワークを開発するためのシステムファーストアプローチを採用する。
オブジェクト検出のためのビジョンランゲージモデル(VLM)、移動のためのナビゲーションプリミティブ、オブジェクト操作のためのプリミティブの把握を組み合わせることで、OK-Robotはトレーニングを必要とせずにピック・アンド・ドロップ操作のための統合ソリューションを提供する。
その性能を評価するために,10の実環境においてOK-Robotを実行する。
OVMM(Open Vocabulary Mobile Manipulation)では,OVMM(Open Vocabulary Mobile Manipulation)が従来よりも1.8倍近い性能で,オープンエンドのピック・アンド・ドロップタスクにおいて58.5%の成功率を達成した。
よりクリーンで散らかっていない環境では、OK-Robotのパフォーマンスは82%に向上する。
しかし、OK-Robotから得られる最も重要な洞察は、VLMのようなオープン知識システムとロボットモジュールを組み合わせる際に、ニュアンスドディテールの重要な役割である。
私たちの実験とコードのビデオは、当社のwebサイト(https://ok-robot.github.io)で閲覧できます。
関連論文リスト
- Vid2Robot: End-to-end Video-conditioned Policy Learning with Cross-Attention Transformers [36.497624484863785]
ロボットのための新しいエンドツーエンドビデオベース学習フレームワークであるVid2Robotを紹介した。
Vid2Robotは、操作タスクと現在の視覚的観察のデモビデオから、ロボットのアクションを直接生成する。
これは、人間のビデオとロボットの軌道の大規模なデータセットに基づいて訓練された統一表現モデルによって達成される。
論文 参考訳(メタデータ) (2024-03-19T17:47:37Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Giving Robots a Hand: Learning Generalizable Manipulation with
Eye-in-Hand Human Video Demonstrations [66.47064743686953]
眼内カメラは、視覚に基づくロボット操作において、より優れたサンプル効率と一般化を可能にすることを約束している。
一方、人間がタスクを行うビデオは、ロボット遠隔操作の専門知識を欠いているため、収集コストがずっと安い。
本研究では,広範にラベルのない人間ビデオによるロボット模倣データセットを拡張し,眼球運動ポリシーの一般化を大幅に促進する。
論文 参考訳(メタデータ) (2023-07-12T07:04:53Z) - HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。
HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文 参考訳(メタデータ) (2023-06-20T14:30:32Z) - Surfer: Progressive Reasoning with World Models for Robotic Manipulation [51.26109827779267]
本稿では,新しいシンプルなロボット操作フレームワークであるSurferを紹介する。
Surferは、ロボット操作を視覚シーンの状態伝達として扱い、それをアクションとシーンという2つの部分に分割する。
これは世界モデルに基づいており、ロボット操作を視覚シーンの状態伝達として扱い、アクションとシーンの2つの部分に分けられる。
論文 参考訳(メタデータ) (2023-06-20T07:06:04Z) - Affordances from Human Videos as a Versatile Representation for Robotics [31.248842798600606]
我々は、人間がどこでどのように対話するかを推定する視覚的余裕モデルを訓練する。
これらの行動割当の構造は、ロボットが多くの複雑なタスクを直接実行できるようにする。
私たちは、VRBと呼ばれる4つの現実世界環境、10以上のタスクと2つのロボットプラットフォームにおいて、私たちのアプローチの有効性を示します。
論文 参考訳(メタデータ) (2023-04-17T17:59:34Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。