Fugu-MT 論文翻訳(概要): VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

論文の概要: VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models

arxiv url: http://arxiv.org/abs/2307.05973v1
Date: Wed, 12 Jul 2023 07:40:48 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-13 14:01:04.769207
Title: VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
Title（参考訳）: VoxPoser: 言語モデルを用いたロボット操作のための構成可能な3次元値マップ
Authors: Wenlong Huang, Chen Wang, Ruohan Zhang, Yunzhu Li, Jiajun Wu, Li Fei-Fei
Abstract要約: 大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。本研究では,シミュレーション環境と実ロボット環境の両方において提案手法を大規模に検討する。
参考スコア（独自算出の注目度）: 37.37020287471798
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) are shown to possess a wealth of actionable knowledge that can be extracted for robot manipulation in the form of reasoning and planning. Despite the progress, most still rely on pre-defined motion primitives to carry out the physical interactions with the environment, which remains a major bottleneck. In this work, we aim to synthesize robot trajectories, i.e., a dense sequence of 6-DoF end-effector waypoints, for a large variety of manipulation tasks given an open-set of instructions and an open-set of objects. We achieve this by first observing that LLMs excel at inferring affordances and constraints given a free-form language instruction. More importantly, by leveraging their code-writing capabilities, they can interact with a visual-language model (VLM) to compose 3D value maps to ground the knowledge into the observation space of the agent. The composed value maps are then used in a model-based planning framework to zero-shot synthesize closed-loop robot trajectories with robustness to dynamic perturbations. We further demonstrate how the proposed framework can benefit from online experiences by efficiently learning a dynamics model for scenes that involve contact-rich interactions. We present a large-scale study of the proposed method in both simulated and real-robot environments, showcasing the ability to perform a large variety of everyday manipulation tasks specified in free-form natural language. Project website: https://voxposer.github.io
Abstract（参考訳）: 大規模言語モデル(llm)は、推論と計画という形でロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。進歩にもかかわらず、ほとんどの場合、環境との物理的相互作用を実行するために事前に定義された運動プリミティブに依存している。本研究では,ロボットの軌跡,すなわち6自由度エンドエフェクタ・ウェイポイントの密集したシーケンスを,命令のオープンセットとオブジェクトのオープンセットを与えられた多種多様な操作タスクで合成することを目的とする。まず,LLMが自由形式の言語命令を与えられた可読性や制約を推定できることを観察する。さらに重要なのは、コード記述機能を活用することで、視覚言語モデル(VLM)と対話して3D値マップを作成し、エージェントの観察空間に知識を基盤とすることが可能になる。合成された値マップはモデルベースの計画フレームワークで使われ、動的摂動に対して頑健な閉ループロボットの軌跡を合成する。さらに,コンタクトリッチなインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンラインエクスペリエンスのメリットを享受できることを示す。本研究では, 実ロボット環境とシミュレーション環境の両方において, 提案手法を大規模に検討し, 自由形自然言語で特定された日常的タスクを多種多様に行う能力を示す。プロジェクトウェブサイト: https://voxposer.github.io

関連論文リスト

OpenNav: Open-World Navigation with Multimodal Large Language Models [8.41361699991122]
大型言語モデル(LLM)は強力な常識推論能力を示しており、ロボットナビゲーションと計画タスクを約束している。ロボットが複雑な言語命令を解釈して分解し、最終的には一連の軌跡を合成して、多様なナビゲーションタスクを完備化することを目指している。室内および屋外の両方のシーンにおいて,ハスキーロボットを用いたシステムの有効性を検証し,実世界のロバスト性と適用性を示す。
論文参考訳（メタデータ） (2025-07-24T02:05:28Z)
KUDA: Keypoints to Unify Dynamics Learning and Visual Prompting for Open-Vocabulary Robotic Manipulation [7.618517580705364]
KUDAは、動的学習とキーポイントによる視覚的プロンプトを統合したオープン語彙操作システムである。我々の重要な洞察は、キーポイントベースのターゲット仕様が同時にVLMによって解釈可能であることである。我々は,多様な対象カテゴリにわたる自由形式言語命令を含む操作タスクにおいて,KUDAを評価する。
論文参考訳（メタデータ） (2025-03-13T16:59:17Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文参考訳（メタデータ） (2024-08-15T06:40:38Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Grounding Language Plans in Demonstrations Through Counterfactual Perturbations [25.19071357445557]
物理領域におけるLarge Language Models(LLM)の常識的推論は、具体化されたAIにとって重要な問題でありながら未解決である。提案手法は,2次元ナビゲーションによる模倣学習の解釈性と反応性を向上し,シミュレーションおよび実ロボット操作タスクを実現する。
論文参考訳（メタデータ） (2024-03-25T19:04:59Z)
RPMArt: Towards Robust Perception and Manipulation for Articulated Objects [56.73978941406907]
本稿では,Articulated Objects (RPMArt) のロバスト知覚と操作のためのフレームワークを提案する。 RPMArtは、調音パラメータを推定し、雑音の多い点雲から調音部分を操作することを学習する。我々は,シミュレート・トゥ・リアル・トランスファーの能力を高めるための調音認識型分類手法を提案する。
論文参考訳（メタデータ） (2024-03-24T05:55:39Z)
Interactive Planning Using Large Language Models for Partially Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。 LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文参考訳（メタデータ） (2023-12-11T22:54:44Z)
Chat with the Environment: Interactive Multimodal Perception Using Large Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文参考訳（メタデータ） (2023-03-14T23:01:27Z)
LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文参考訳（メタデータ） (2022-08-04T22:43:21Z)
V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects [51.79035249464852]
本稿では,音声による物体のマルチアーム操作を学習するためのフレームワークを提案する。本フレームワークは,各ロボットアームの剛部上の接触点分布を学習する変動生成モデルを含む。
論文参考訳（メタデータ） (2021-11-07T02:31:09Z)
Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文参考訳（メタデータ） (2020-12-30T23:59:09Z)
Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。 i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文参考訳（メタデータ） (2020-10-11T01:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。