論文の概要: Creative Robot Tool Use with Large Language Models
- arxiv url: http://arxiv.org/abs/2310.13065v1
- Date: Thu, 19 Oct 2023 18:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 01:45:26.744554
- Title: Creative Robot Tool Use with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた創造型ロボットツール
- Authors: Mengdi Xu, Peide Huang, Wenhao Yu, Shiqi Liu, Xilun Zhang, Yaru Niu,
Tingnan Zhang, Fei Xia, Jie Tan, Ding Zhao
- Abstract要約: 本稿では,暗黙的な身体的制約や長期計画を含むタスクにおいて,ツールを創造的に活用できるロボットの実現可能性について検討する。
我々は、自然言語命令を受け入れ、シミュレーションと実環境の両方でロボットを制御する実行可能なコードを出力するシステムであるRoboToolを開発した。
- 参考スコア(独自算出の注目度): 47.11935262923095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool use is a hallmark of advanced intelligence, exemplified in both animal
behavior and robotic capabilities. This paper investigates the feasibility of
imbuing robots with the ability to creatively use tools in tasks that involve
implicit physical constraints and long-term planning. Leveraging Large Language
Models (LLMs), we develop RoboTool, a system that accepts natural language
instructions and outputs executable code for controlling robots in both
simulated and real-world environments. RoboTool incorporates four pivotal
components: (i) an "Analyzer" that interprets natural language to discern key
task-related concepts, (ii) a "Planner" that generates comprehensive strategies
based on the language input and key concepts, (iii) a "Calculator" that
computes parameters for each skill, and (iv) a "Coder" that translates these
plans into executable Python code. Our results show that RoboTool can not only
comprehend explicit or implicit physical constraints and environmental factors
but also demonstrate creative tool use. Unlike traditional Task and Motion
Planning (TAMP) methods that rely on explicit optimization, our LLM-based
system offers a more flexible, efficient, and user-friendly solution for
complex robotics tasks. Through extensive experiments, we validate that
RoboTool is proficient in handling tasks that would otherwise be infeasible
without the creative use of tools, thereby expanding the capabilities of
robotic systems. Demos are available on our project page:
https://creative-robotool.github.io/.
- Abstract(参考訳): ツールの使用は高度な知能の指標であり、動物の行動とロボットの能力の両方に例えられる。
本稿では,暗黙の物理的制約や長期計画を伴うタスクにおいて,ツールを創造的に使用できるロボットの実現可能性について検討する。
我々は,Large Language Models (LLMs) を活用して,自然言語命令を受け入れるシステムRoboToolを開発し,シミュレーションと実環境の両方でロボットを制御する実行可能なコードを出力する。
RoboToolには4つの重要なコンポーネントが含まれている。
(i)重要課題概念を識別するために自然言語を解釈する「分析者」
(ii)言語入力とキー概念に基づく包括的戦略を生成する「プランナー」。
(iii)各スキルのパラメータを計算する「カルキュレータ」、及び
(iv)これらの計画を実行可能なPythonコードに変換する"Coder"。
以上の結果から,RoboToolは明示的あるいは暗黙的な物理的制約や環境要因を理解するだけでなく,創造的なツールの使用を実証できることがわかった。
明示的な最適化に頼っている従来のタスク・アンド・モーション・プランニング(TAMP)とは異なり、LLMベースのシステムは複雑なロボティクスタスクに対してより柔軟で効率的でユーザフレンドリーなソリューションを提供する。
広範な実験を通じて、RoboToolは、ツールを創造的に使わずに実現不可能なタスクを扱うことに長けており、ロボットシステムの能力を拡大している。
デモはプロジェクトのページ(https://creative-robotool.github.io/)で閲覧できます。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Language to Rewards for Robotic Skill Synthesis [37.21434094015743]
我々は,大規模言語モデル(LLM)を利用して,様々なロボットタスクを最適化し,達成可能な報酬パラメータを定義する新しいパラダイムを提案する。
LLMが生成する中間インタフェースとして報酬を用いることで、ハイレベルな言語命令と修正のギャップを、低レベルなロボット動作に効果的に埋めることができる。
論文 参考訳(メタデータ) (2023-06-14T17:27:10Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。