Fugu-MT 論文翻訳(概要): OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

論文の概要: OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics

arxiv url: http://arxiv.org/abs/2401.12202v2
Date: Thu, 29 Feb 2024 17:20:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 17:49:53.566997
Title: OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics
Title（参考訳）: OK-Robot:ロボットのためのオープン知識モデルを統合する上で本当に重要なこと
Authors: Peiqi Liu, Yaswanth Orru, Jay Vakil, Chris Paxton, Nur Muhammad Mahi Shafiullah, Lerrel Pinto
Abstract要約: 我々はOK-Robotと呼ばれる新しいオープンナレッジベースのロボティクスフレームワークを開発した。オブジェクト検出のためのビジョンランゲージモデル(VLM)、移動のためのナビゲーションプリミティブ、オブジェクト操作のためのプリミティブの把握を組み合わせることで、OK-Robotはトレーニングを必要とせずにピック・アンド・ドロップ操作のための統合ソリューションを提供する。その結果、OK-Robotは、オープンエンドピック・アンド・ドロップタスクにおいて58.5%の成功率を達成した。
参考スコア（独自算出の注目度）: 26.73838656137223
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Remarkable progress has been made in recent years in the fields of vision, language, and robotics. We now have vision models capable of recognizing objects based on language queries, navigation systems that can effectively control mobile systems, and grasping models that can handle a wide range of objects. Despite these advancements, general-purpose applications of robotics still lag behind, even though they rely on these fundamental capabilities of recognition, navigation, and grasping. In this paper, we adopt a systems-first approach to develop a new Open Knowledge-based robotics framework called OK-Robot. By combining Vision-Language Models (VLMs) for object detection, navigation primitives for movement, and grasping primitives for object manipulation, OK-Robot offers a integrated solution for pick-and-drop operations without requiring any training. To evaluate its performance, we run OK-Robot in 10 real-world home environments. The results demonstrate that OK-Robot achieves a 58.5% success rate in open-ended pick-and-drop tasks, representing a new state-of-the-art in Open Vocabulary Mobile Manipulation (OVMM) with nearly 1.8x the performance of prior work. On cleaner, uncluttered environments, OK-Robot's performance increases to 82%. However, the most important insight gained from OK-Robot is the critical role of nuanced details when combining Open Knowledge systems like VLMs with robotic modules. Videos of our experiments and code are available on our website: https://ok-robot.github.io
Abstract（参考訳）: 近年、視覚、言語、ロボット工学の分野で顕著な進歩を遂げている。現在、言語クエリに基づくオブジェクトの認識が可能な視覚モデル、モバイルシステムを効果的に制御できるナビゲーションシステム、広範囲のオブジェクトを扱うことができるモデルを把握しています。こうした進歩にもかかわらず、ロボット工学の汎用応用は、認識、ナビゲーション、把握といった基本的な能力に依存しているものの、まだ遅れている。本稿では,OK-Robotと呼ばれる新しいオープン知識ベースのロボット工学フレームワークを開発するためのシステムファーストアプローチを採用する。オブジェクト検出のためのビジョンランゲージモデル(VLM)、移動のためのナビゲーションプリミティブ、オブジェクト操作のためのプリミティブの把握を組み合わせることで、OK-Robotはトレーニングを必要とせずにピック・アンド・ドロップ操作のための統合ソリューションを提供する。その性能を評価するために,10の実環境においてOK-Robotを実行する。 OVMM(Open Vocabulary Mobile Manipulation)では,OVMM(Open Vocabulary Mobile Manipulation)が従来よりも1.8倍近い性能で,オープンエンドのピック・アンド・ドロップタスクにおいて58.5%の成功率を達成した。よりクリーンで散らかっていない環境では、OK-Robotのパフォーマンスは82%に向上する。しかし、OK-Robotから得られる最も重要な洞察は、VLMのようなオープン知識システムとロボットモジュールを組み合わせる際に、ニュアンスドディテールの重要な役割である。私たちの実験とコードのビデオは、当社のwebサイト(https://ok-robot.github.io)で閲覧できます。

関連論文リスト

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
$π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文参考訳（メタデータ） (2024-10-31T17:22:30Z)
Open-TeleVision: Teleoperation with Immersive Active Visual Feedback [17.505318269362512]
Open-TeleVisionは、オペレーターが立体的にロボットの周囲を積極的に知覚することを可能にする。このシステムは操作者の腕と手の動きをロボットに反映し、没入感のある体験を作り出す。本システムの有効性は,長期的かつ正確な4つの課題に対して,データ収集と模倣学習ポリシーの訓練によって検証する。
論文参考訳（メタデータ） (2024-07-01T17:55:35Z)
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics [46.63773228934993]
本稿では,ロボットドメインやニーズに対して,視覚言語モデル(VLM)を命令チューニングする,自動合成データ生成パイプラインを提案する。パイプラインを使用して、与えられた言語命令に対する画像キーポイントの価格を予測するVLMであるRoboPointを訓練する。実験の結果,RoboPointは空間空き量の予測精度が21.8%,下流タスクの成功率が30.5%,最先端VLMが21.8%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-15T19:22:51Z)
Octo: An Open-Source Generalist Robot Policy [88.14295917143188]
ここでは,Open X-Embodimentデータセットから800kトラジェクトリをトレーニングした,大規模なトランスフォーマーベースのポリシであるOctoを紹介する。標準のGPUでは数時間以内に、新しいセンサー入力とアクションスペースを備えたロボットセットアップに効果的にカスタマイズできる。また,アーキテクチャからトレーニングデータに至るまで,Octoモデルの設計決定の詳細な説明を行い,汎用ロボットモデルの構築に関する今後の研究を指導する。
論文参考訳（メタデータ） (2024-05-20T17:57:01Z)
OpenBot-Fleet: A System for Collective Learning with Real Robots [45.739144410591805]
ナビゲーションのための総合的なオープンソースクラウドロボティクスシステムであるOpenBot-Fleetを紹介する。 OpenBot-Fleetは、センサー、ローカルコンピューティング、通信にスマートフォン、セキュアなクラウドストレージとオフボードコンピューティングにGoogleを使用している。実験では、72台のロボットを家庭で操作する労働者の群集に配布し、OpenBot-Fleetが堅牢なナビゲーションポリシーを学習できることを示しました。
論文参考訳（メタデータ） (2024-05-13T07:22:50Z)
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文参考訳（メタデータ） (2024-02-22T15:12:00Z)
HomeRobot: Open-Vocabulary Mobile Manipulation [107.05702777141178]
Open-Vocabulary Mobile Manipulation (OVMM) は、目に見えない環境で任意のオブジェクトを選択し、命令された場所に配置する問題である。 HomeRobotには2つのコンポーネントがある。シミュレーションコンポーネントは、新しい高品質のマルチルームホーム環境に、大規模で多様なキュレートされたオブジェクトセットを使用する。
論文参考訳（メタデータ） (2023-06-20T14:30:32Z)
Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文参考訳（メタデータ） (2023-03-02T01:55:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。