論文の概要: Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning
- arxiv url: http://arxiv.org/abs/2311.17842v2
- Date: Sun, 24 Dec 2023 03:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 21:20:51.424257
- Title: Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning
- Title(参考訳): look before you leap: gpt-4vのパワーをロボットビジョン言語計画で披露
- Authors: Yingdong Hu, Fanqi Lin, Tong Zhang, Li Yi, Yang Gao
- Abstract要約: 本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
- 参考スコア(独自算出の注目度): 32.045840007623276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we are interested in imbuing robots with the capability of
physically-grounded task planning. Recent advancements have shown that large
language models (LLMs) possess extensive knowledge useful in robotic tasks,
especially in reasoning and planning. However, LLMs are constrained by their
lack of world grounding and dependence on external affordance models to
perceive environmental information, which cannot jointly reason with LLMs. We
argue that a task planner should be an inherently grounded, unified multimodal
system. To this end, we introduce Robotic Vision-Language Planning (ViLa), a
novel approach for long-horizon robotic planning that leverages vision-language
models (VLMs) to generate a sequence of actionable steps. ViLa directly
integrates perceptual data into its reasoning and planning process, enabling a
profound understanding of commonsense knowledge in the visual world, including
spatial layouts and object attributes. It also supports flexible multimodal
goal specification and naturally incorporates visual feedback. Our extensive
evaluation, conducted in both real-robot and simulated environments,
demonstrates ViLa's superiority over existing LLM-based planners, highlighting
its effectiveness in a wide array of open-world manipulation tasks.
- Abstract(参考訳): 本研究では,ロボットに身体的な作業計画能力を持たせることに関心を寄せる。
近年の進歩は、大規模言語モデル(LLM)がロボットタスク、特に推論や計画において有用な知識を持っていることを示している。
しかし、LLMは世界基盤の欠如と環境情報を知覚するために外部の価格モデルに依存しているため、LLMと共同で理由付けができない。
タスクプランナは本質的に基盤化された統合マルチモーダルシステムであるべきだと我々は主張する。
この目的のために、視覚言語モデル(VLM)を活用して動作可能な一連のステップを生成する、長距離ロボット計画のための新しいアプローチであるRobotic Vision-Language Planning (ViLa)を紹介する。
ViLaは知覚データをその推論と計画プロセスに直接統合し、空間レイアウトやオブジェクト属性を含む視覚の世界における常識的知識の深い理解を可能にする。
また、フレキシブルなマルチモーダルゴール仕様をサポートし、ビジュアルフィードバックを自然に組み込む。
実ロボットとシミュレーション環境の両方で実施した広範な評価は,既存のllmベースのプランナーよりもvilaが優れていることを示し,多岐にわたるオープンワールド操作タスクにおけるvilaの有効性を強調した。
関連論文リスト
- VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model [4.557035895252272]
視覚言語モデル(VLM)は、常識推論と一般化可能性において、ロボット工学に採用されている。
本研究では,VLMを用いて人間のデモ映像を解釈し,ロボットによるタスク計画を生成する。
これは、VLMが人間によるデモンストレーションを「見る」ことができ、それに対応する計画をロボットに「見る」ように説明できるためである。
論文 参考訳(メタデータ) (2024-10-11T13:17:52Z) - Solving Robotics Problems in Zero-Shot with Vision-Language Models [0.0]
ゼロショット方式でロボットの問題を解くために設計された多エージェント視覚大言語モデル(VLLM)フレームワークであるWonderful Teamを紹介した。
我々の文脈では、ゼロショットは、新しい環境において、ロボットの周囲のイメージとタスク記述を備えたVLLMを提供することを意味する。
私たちのシステムは、操作、ゴールリーチ、視覚的推論といった多様なタスクを、すべてゼロショットで処理できる能力を示しています。
論文 参考訳(メタデータ) (2024-07-26T21:18:57Z) - VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。
VLMの未調査能力の1つは、視覚空間計画である。
本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2024-07-02T00:24:01Z) - Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Large Language Models for Robotics: Opportunities, Challenges, and
Perspectives [46.57277568357048]
大規模言語モデル(LLM)は大幅に拡張され、様々な領域にまたがって統合されている。
ロボットが複雑な環境と対話する具体的タスクでは、テキストのみのLLMは、ロボットの視覚知覚との互換性が欠如しているため、しばしば課題に直面している。
本稿では,マルチモーダル GPT-4V を利用して,自然言語命令とロボットの視覚認識を組み合わせることで,具体的タスク計画を強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-09T03:22:16Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - EgoPlan-Bench: Benchmarking Multimodal Large Language Models for Human-Level Planning [84.6451394629312]
実世界のシナリオにおけるMLLMの計画能力を評価するベンチマークであるEgoPlan-Benchを紹介する。
EgoPlan-Benchは、人間レベルのタスクプランニングを実現するためのMLLMの改善のかなりの範囲を浮き彫りにする。
また,EgoPlan-Bench上でのモデル性能を効果的に向上する特殊命令チューニングデータセットであるEgoPlan-ITを提案する。
論文 参考訳(メタデータ) (2023-12-11T03:35:58Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。