論文の概要: Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy
- arxiv url: http://arxiv.org/abs/2410.01345v1
- Date: Wed, 02 Oct 2024 09:02:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:20:46.649583
- Title: Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy
- Title(参考訳): 汎用ビジョンランゲージロボットマニピュレーションに向けて:ベンチマークとLLM誘導型3Dポリシー
- Authors: Ricardo Garcia, Shizhe Chen, Cordelia Schmid,
- Abstract要約: GemBenchは視覚言語ロボット操作ポリシーの一般化能力を評価するための新しいベンチマークである。
LLMのタスク計画機能と3D-LOTUSの動作計画機能を統合するフレームワークである3D-LOTUS++を提案する。
3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
- 参考スコア(独自算出の注目度): 68.50785963043161
- License:
- Abstract: Generalizing language-conditioned robotic policies to new tasks remains a significant challenge, hampered by the lack of suitable simulation benchmarks. In this paper, we address this gap by introducing GemBench, a novel benchmark to assess generalization capabilities of vision-language robotic manipulation policies. GemBench incorporates seven general action primitives and four levels of generalization, spanning novel placements, rigid and articulated objects, and complex long-horizon tasks. We evaluate state-of-the-art approaches on GemBench and also introduce a new method. Our approach 3D-LOTUS leverages rich 3D information for action prediction conditioned on language. While 3D-LOTUS excels in both efficiency and performance on seen tasks, it struggles with novel tasks. To address this, we present 3D-LOTUS++, a framework that integrates 3D-LOTUS's motion planning capabilities with the task planning capabilities of LLMs and the object grounding accuracy of VLMs. 3D-LOTUS++ achieves state-of-the-art performance on novel tasks of GemBench, setting a new standard for generalization in robotic manipulation. The benchmark, codes and trained models are available at \url{https://www.di.ens.fr/willow/research/gembench/}.
- Abstract(参考訳): 言語条件のロボットポリシーを新しいタスクに一般化することは、適切なシミュレーションベンチマークが欠如していることから、依然として大きな課題である。
本稿では,視覚言語ロボット操作ポリシーの一般化能力を評価する新しいベンチマークであるGemBenchを導入することにより,このギャップに対処する。
GemBenchには7つの一般的なアクションプリミティブと4つのレベルの一般化、新しい配置、堅固で明瞭なオブジェクト、複雑な長距離タスクが含まれている。
GemBenchにおける最先端のアプローチを評価し,新しい手法を提案する。
我々の3D-LOTUSは、リッチな3D情報を利用して、言語による行動予測を行う。
3D-LOTUSは、目に見えるタスクの効率とパフォーマンスの両方に優れていますが、新しいタスクでは苦労しています。
3D-LOTUS++は3D-LOTUSの動作計画能力とLLMのタスク計画能力と、VLMのオブジェクト基底精度を統合したフレームワークである。
3D-LOTUS++はGemBenchの新しいタスクで最先端のパフォーマンスを実現し、ロボット操作の一般化のための新しい標準を設定している。
ベンチマーク、コード、トレーニングされたモデルは、 \url{https://www.di.ens.fr/willow/research/gembench/} で公開されている。
関連論文リスト
- When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z) - Exploring Unseen Environments with Robots using Large Language and Vision Models through a Procedurally Generated 3D Scene Representation [0.979851640406258]
本研究は,人間の認知を模倣して物体目標ナビゲーション問題を解決することに焦点を当てる。
対象の探索に慣れない環境を探索できる包括的フレームワークを提案する。
LLMを使ってハイレベルなサブゴールを生成する場合の課題は、ロボットの周囲の環境を効率的に表現することである。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - 3D-VLA: A 3D Vision-Language-Action Generative World Model [68.0388311799959]
最近の視覚言語アクション(VLA)モデルは2D入力に依存しており、3D物理世界の広い領域との統合は欠如している。
本稿では,3次元知覚,推論,行動をシームレスにリンクする新しい基礎モデルのファウンデーションモデルを導入することにより,3D-VLAを提案する。
本実験により,3D-VLAは実環境における推論,マルチモーダル生成,計画能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-14T17:58:41Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z) - Generalizable Long-Horizon Manipulations with Large Language Models [91.740084601715]
本研究は,Large Language Models (LLMs) の機能を活用して,汎用可能な長距離操作のための原始的なタスク条件を生成するフレームワークを導入する。
我々は,Pybulletに基づくロボット操作タスクスイートを作成し,長期作業評価を行う。
論文 参考訳(メタデータ) (2023-10-03T17:59:46Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - Graph-based Reinforcement Learning meets Mixed Integer Programs: An
application to 3D robot assembly discovery [34.25379651790627]
我々は、テトリスのような構造ブロックとロボットマニピュレータを用いて、スクラッチから完全に定義済みの任意のターゲット構造を構築するという課題に対処する。
我々の新しい階層的アプローチは、タスク全体を相互に利益をもたらす3つの実行可能なレベルに効率的に分解することを目的としています。
論文 参考訳(メタデータ) (2022-03-08T14:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。