論文の概要: MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting
- arxiv url: http://arxiv.org/abs/2403.03174v3
- Date: Wed, 4 Sep 2024 01:18:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 03:42:07.521976
- Title: MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting
- Title(参考訳): Moka: Mark-based Visual Promptingによるオープンワールドロボットマニピュレーション
- Authors: Fangchen Liu, Kuan Fang, Pieter Abbeel, Sergey Levine,
- Abstract要約: 我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
- 参考スコア(独自算出の注目度): 97.52388851329667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-world generalization requires robotic systems to have a profound understanding of the physical world and the user command to solve diverse and complex tasks. While the recent advancement in vision-language models (VLMs) has offered unprecedented opportunities to solve open-world problems, how to leverage their capabilities to control robots remains a grand challenge. In this paper, we introduce Marking Open-world Keypoint Affordances (MOKA), an approach that employs VLMs to solve robotic manipulation tasks specified by free-form language instructions. Central to our approach is a compact point-based representation of affordance, which bridges the VLM's predictions on observed images and the robot's actions in the physical world. By prompting the pre-trained VLM, our approach utilizes the VLM's commonsense knowledge and concept understanding acquired from broad data sources to predict affordances and generate motions. To facilitate the VLM's reasoning in zero-shot and few-shot manners, we propose a visual prompting technique that annotates marks on images, converting affordance reasoning into a series of visual question-answering problems that are solvable by the VLM. We further explore methods to enhance performance with robot experiences collected by MOKA through in-context learning and policy distillation. We evaluate and analyze MOKA's performance on various table-top manipulation tasks including tool use, deformable body manipulation, and object rearrangement.
- Abstract(参考訳): オープンワールドの一般化は、多様な複雑なタスクを解決するために、ロボットシステムが物理世界とユーザコマンドを深く理解する必要がある。
近年の視覚言語モデル(VLM)の進歩は、オープンワールドの問題を解決する前例のない機会を提供してきたが、ロボットを制御する能力の活用は依然として大きな課題である。
本稿では,自由形式の言語命令で指定されたロボット操作タスクを解決するために,VLMを用いたMoka(Marking Open-World Keypoint Affordances)を提案する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
事前学習したVLMを推し進めることで、広範データソースから得られたVLMの常識知識と概念理解を利用して、余裕を予測し、動きを生成する。
ゼロショットや少数ショットの方法でのVLMの推論を容易にするため,画像にマークを付加する視覚的プロンプト手法を提案し,可視性推論をVLMで解ける一連の視覚的質問応答問題に変換する。
さらに,Mokaが収集したロボット体験を用いて,文脈内学習と政策蒸留による性能向上手法についても検討する。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
関連論文リスト
- Solving Robotics Problems in Zero-Shot with Vision-Language Models [0.0]
ゼロショット方式でロボットの問題を解くために設計された多エージェント視覚大言語モデル(VLLM)フレームワークであるWonderful Teamを紹介した。
我々の文脈では、ゼロショットは、新しい環境において、ロボットの周囲のイメージとタスク記述を備えたVLLMを提供することを意味する。
私たちのシステムは、操作、ゴールリーチ、視覚的推論といった多様なタスクを、すべてゼロショットで処理できる能力を示しています。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - PIVOT: Iterative Visual Prompting Elicits Actionable Knowledge for VLMs [140.14239499047977]
視覚言語モデル(VLM)は、論理的推論から視覚的理解に至るまで、様々なタスクにわたって印象的な能力を示している。
PIVOT(Prompting with Iterative Visual Optimization)と呼ばれる新しい視覚的プロンプト手法を提案する。
私たちのアプローチは、ロボットのトレーニングデータやさまざまな環境でのナビゲーション、その他の能力なしに、ロボットシステムのゼロショット制御を可能にします。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。
本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。
提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文 参考訳(メタデータ) (2023-12-22T06:15:03Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。