Fugu-MT 論文翻訳(概要): GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

論文の概要: GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration

arxiv url: http://arxiv.org/abs/2311.12015v1
Date: Mon, 20 Nov 2023 18:54:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-21 17:26:10.750417
Title: GPT-4V(ision) for Robotics: Multimodal Task Planning from Human Demonstration
Title（参考訳）: ロボットのためのGPT-4V:人間によるマルチモーダルタスク計画
Authors: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
Abstract要約: 我々は,ロボット操作を容易にするため,人間の行動の観察を統合することで汎用視覚言語モデル(GPT-4V(ision))を強化するパイプラインを導入する。このシステムは、人間がタスクを実行する様子を解析し、余分な洞察を取り入れた実行可能なロボットプログラムを作成する。
参考スコア（独自算出の注目度）: 8.660929270060146
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a pipeline that enhances a general-purpose Vision Language Model, GPT-4V(ision), by integrating observations of human actions to facilitate robotic manipulation. This system analyzes videos of humans performing tasks and creates executable robot programs that incorporate affordance insights. The computation starts by analyzing the videos with GPT-4V to convert environmental and action details into text, followed by a GPT-4-empowered task planner. In the following analyses, vision systems reanalyze the video with the task plan. Object names are grounded using an open-vocabulary object detector, while focus on the hand-object relation helps to detect the moment of grasping and releasing. This spatiotemporal grounding allows the vision systems to further gather affordance data (e.g., grasp type, way points, and body postures). Experiments across various scenarios demonstrate this method's efficacy in achieving real robots' operations from human demonstrations in a zero-shot manner. The prompts of GPT-4V/GPT-4 are available at this project page: https://microsoft.github.io/GPT4Vision-Robot-Manipulation-Prompts/
Abstract（参考訳）: 我々は,ロボット操作を容易にするため,人間の行動の観察を統合することで汎用視覚言語モデル(GPT-4V(ision))を強化するパイプラインを導入する。このシステムは、タスクを実行する人のビデオを分析し、アフォーマンスインサイトを組み込んだ実行可能なロボットプログラムを作成する。計算は、GPT-4Vでビデオを分析し、環境や行動の詳細をテキストに変換し、次にGPT-4を内蔵したタスクプランナーで始まる。以下の分析では、視覚システムがタスクプランでビデオを再分析する。オブジェクト名はopen-vocabulary object detectorを使用して接地されるが、手とオブジェクトの関係にフォーカスすることは、把持と解放の瞬間を検出するのに役立つ。この時空間的接地により、視覚系はさらに可測データ(例えば、型、方向、姿勢など)を集めることができる。様々なシナリオにおける実験により、この方法が人間の実演から実際のロボットの操作をゼロショットで達成する効果が示されている。 gpt-4v/gpt-4のプロンプトはこのプロジェクトページで入手できる。 https://microsoft.github.io/gpt4vision-robot-manipulation-prompts/

関連論文リスト

VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
TalkWithMachines: Enhancing Human-Robot Interaction for Interpretable Industrial Robotics Through Large/Vision Language Models [1.534667887016089]
本稿では,Large Language Models (LLMs) とVision Language Models (VLMs) の最近の進歩について検討する。この統合により、ロボットは自然言語で与えられたコマンドを理解し、実行し、視覚的および/または記述的な入力を通じて環境を認識することができる。本稿は、低レベル制御を探索するLLM支援型ロボット制御4つについて概説し、(ii)ロボットの内部状態を記述した言語に基づくフィードバックの生成、(iii)視覚情報の追加入力としての利用、(iv)タスク計画とフィードバックを生成するロボット構造情報の利用について述べる。
論文参考訳（メタデータ） (2024-12-19T23:43:40Z)
VLM See, Robot Do: Human Demo Video to Robot Action Plan via Vision Language Model [4.557035895252272]
視覚言語モデル(VLM)は、常識推論と一般化可能性において、ロボット工学に採用されている。本研究では,VLMを用いて人間のデモ映像を解釈し,ロボットによるタスク計画を生成する。これは、VLMが人間によるデモンストレーションを「見る」ことができ、それに対応する計画をロボットに「見る」ように説明できるためである。
論文参考訳（メタデータ） (2024-10-11T13:17:52Z)
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-15T06:40:38Z)
Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。 ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文参考訳（メタデータ） (2024-05-30T17:56:54Z)
Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文参考訳（メタデータ） (2024-05-02T17:56:55Z)
QUAR-VLA: Vision-Language-Action Model for Quadruped Robots [37.952398683031895]
中心となるアイデアは、ロボットの全体的な知性を高めることだ。本稿では,VLAモデルのファミリである Quadruped Robotic Transformer (QUART) を提案する。提案手法は,動作可能なロボットポリシーを導き,一貫した能力の獲得を可能にする。
論文参考訳（メタデータ） (2023-12-22T06:15:03Z)
WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文参考訳（メタデータ） (2023-08-30T11:35:21Z)
AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文参考訳（メタデータ） (2023-05-30T09:54:20Z)
Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文参考訳（メタデータ） (2023-05-10T16:25:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。