論文の概要: ClevrSkills: Compositional Language and Visual Reasoning in Robotics
- arxiv url: http://arxiv.org/abs/2411.09052v1
- Date: Wed, 13 Nov 2024 22:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:23:36.807113
- Title: ClevrSkills: Compositional Language and Visual Reasoning in Robotics
- Title(参考訳): ClevrSkills: ロボットにおける構成言語と視覚推論
- Authors: Sanjay Haresh, Daniel Dijkman, Apratim Bhattacharyya, Roland Memisevic,
- Abstract要約: ClevrSkillsは、ロボット工学における合成推論のためのベンチマークスイートである。
基本的なモータースキルを必要とする単純なタスクから始まる、3段階の作曲理解を備えたタスクのカリキュラムを含んでいる。
多数のタスクで事前訓練されたとしても、大規模な視覚言語モデルは構成的推論では失敗する。
- 参考スコア(独自算出の注目度): 5.471836237475936
- License:
- Abstract: Robotics tasks are highly compositional by nature. For example, to perform a high-level task like cleaning the table a robot must employ low-level capabilities of moving the effectors to the objects on the table, pick them up and then move them off the table one-by-one, while re-evaluating the consequently dynamic scenario in the process. Given that large vision language models (VLMs) have shown progress on many tasks that require high level, human-like reasoning, we ask the question: if the models are taught the requisite low-level capabilities, can they compose them in novel ways to achieve interesting high-level tasks like cleaning the table without having to be explicitly taught so? To this end, we present ClevrSkills - a benchmark suite for compositional reasoning in robotics. ClevrSkills is an environment suite developed on top of the ManiSkill2 simulator and an accompanying dataset. The dataset contains trajectories generated on a range of robotics tasks with language and visual annotations as well as multi-modal prompts as task specification. The suite includes a curriculum of tasks with three levels of compositional understanding, starting with simple tasks requiring basic motor skills. We benchmark multiple different VLM baselines on ClevrSkills and show that even after being pre-trained on large numbers of tasks, these models fail on compositional reasoning in robotics tasks.
- Abstract(参考訳): ロボットのタスクは自然によって非常に構成的です。
例えば、テーブルのクリーニングのようなハイレベルなタスクを実行するには、ロボットはエフェクターをテーブル上のオブジェクトに移動させ、それを拾い上げ、テーブルから1つずつ移動させ、結果として生じる動的なシナリオを再評価する低レベルな能力を使用しなければならない。
大きな視覚言語モデル(VLM)が高レベルな人間のような推論を必要とするタスクの多くで進歩していることを考えれば、モデルが必須の低レベル能力を教えられているなら、明示的に教えることなくテーブルを掃除するといった興味深いハイレベルなタスクを達成するために、新しい方法でそれらを構成することができるのか?
この目的のために、ロボット工学における合成推論のためのベンチマークスイートであるClevrSkillsを紹介します。
ClevrSkillsはManiSkill2シミュレータと関連するデータセット上に開発された環境スイートである。
このデータセットには、言語や視覚アノテーションを備えたさまざまなロボティクスタスクで生成されたトラジェクトリと、タスク仕様としてマルチモーダルプロンプトが含まれている。
このスイートには、基本的なモータースキルを必要とする単純なタスクから始まる、3段階の作曲理解を備えたタスクのカリキュラムが含まれている。
我々は、ClevrSkills上で複数の異なるVLMベースラインをベンチマークし、多数のタスクで事前訓練されたとしても、これらのモデルがロボットタスクの構成的推論に失敗することを示す。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Solving Robotics Problems in Zero-Shot with Vision-Language Models [0.0]
ゼロショット方式でロボットの問題を解くために設計された多エージェント視覚大言語モデル(VLLM)フレームワークであるWonderful Teamを紹介した。
我々の文脈では、ゼロショットは、新しい環境において、ロボットの周囲のイメージとタスク記述を備えたVLLMを提供することを意味する。
私たちのシステムは、操作、ゴールリーチ、視覚的推論といった多様なタスクを、すべてゼロショットで処理できる能力を示しています。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。