論文の概要: Verifiably Following Complex Robot Instructions with Foundation Models
- arxiv url: http://arxiv.org/abs/2402.11498v1
- Date: Sun, 18 Feb 2024 08:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:44:54.459855
- Title: Verifiably Following Complex Robot Instructions with Foundation Models
- Title(参考訳): 基礎モデルを用いた複雑なロボット指導の検証
- Authors: Benedict Quartey, Eric Rosen, Stefanie Tellex, George Konidaris
- Abstract要約: ロボットが表現的・長期的指示に従うことを可能にするために,動作計画(LIMP)のための言語指導基盤を提案する。
LIMPは、インストラクターの意図したモチベーションとロボットのアライメントを明らかにする説明可能な命令表現を構築する。
実環境におけるLIMPを,35の複合時間的語彙命令の集合で実証する。
- 参考スコア(独自算出の注目度): 18.09584127867647
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Enabling robots to follow complex natural language instructions is an
important yet challenging problem. People want to flexibly express constraints,
refer to arbitrary landmarks and verify behavior when instructing robots.
Conversely, robots must disambiguate human instructions into specifications and
ground instruction referents in the real world. We propose Language Instruction
grounding for Motion Planning (LIMP), a system that leverages foundation models
and temporal logics to generate instruction-conditioned semantic maps that
enable robots to verifiably follow expressive and long-horizon instructions
with open vocabulary referents and complex spatiotemporal constraints. In
contrast to prior methods for using foundation models in robot task execution,
LIMP constructs an explainable instruction representation that reveals the
robot's alignment with an instructor's intended motives and affords the
synthesis of robot behaviors that are correct-by-construction. We demonstrate
LIMP in three real-world environments, across a set of 35 complex
spatiotemporal instructions, showing the generality of our approach and the
ease of deployment in novel unstructured domains. In our experiments, LIMP can
spatially ground open-vocabulary referents and synthesize constraint-satisfying
plans in 90% of object-goal navigation and 71% of mobile manipulation
instructions. See supplementary videos at https://robotlimp.github.io
- Abstract(参考訳): 複雑な自然言語命令に従うロボットの開発は、重要な課題である。
人々は柔軟に制約を表現し、任意のランドマークを参照し、ロボットに指示するときの行動を検証することを望んでいます。
逆に、ロボットは人間の指示を、現実世界の仕様や地上の指示にあいまいにする必要がある。
動作計画のための言語指導基盤(LIMP: Language Instruction Grounding for Motion Planning)を提案する。これは、基本モデルと時間論理を利用して、ロボットがオープンな語彙参照と複雑な時空間制約を持つ表現的・長期的指示を確実に追従できるように、指示条件付きセマンティックマップを生成するシステムである。
ロボットタスクの実行において基礎モデルを使用する従来の方法とは対照的に、LIMPは、インストラクターの意図する動機とロボットのアライメントを明らかにする説明可能な指示表現を構築し、正しいロボット動作の合成を行う。
LIMPは,35の複雑な時空間命令からなる実世界の3つの環境において,我々のアプローチの一般化と新規な非構造ドメインへの展開の容易さを示す。
実験では,オープンボキャブラリーレファレンスを空間的に接地し,対象方向ナビゲーションの90%と移動操作命令の71%で制約満足プランを合成する。
補足ビデオはhttps://robotlimp.github.io
関連論文リスト
- RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Natural Language Instructions for Intuitive Human Interaction with
Robotic Assistants in Field Construction Work [4.223718588030052]
本稿では,人間の作業者が自然言語の指示に基づいて建設ロボットと対話できる枠組みを提案する。
提案手法は,自然言語理解(NLU),情報マッピング(IM),ロボット制御(RC)の3段階からなる。
論文 参考訳(メタデータ) (2023-07-09T15:02:34Z) - SEAL: Semantic Frame Execution And Localization for Perceiving Afforded
Robot Actions [5.522839151632667]
本稿では,ロボット操作行動のセマンティックフレーム表現を拡張し,セマンティックフレーム実行と局所化の問題をグラフィカルモデルとして導入する。
SEAL問題に対して、ロボットに与えられた行動の場所として、有限のセマンティックフレームに対する信念を維持するための非パラメトリックセマンティックフレームマッピング(SeFM)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-03-24T15:25:41Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - "No, to the Right" -- Online Language Corrections for Robotic
Manipulation via Shared Autonomy [70.45420918526926]
LILACは、実行中に自然言語の修正をオンラインで実施し、適応するためのフレームワークである。
LILACは人間とロボットを個別にターンテイクする代わりに、人間とロボットの間にエージェンシーを分割する。
提案手法は,タスク完了率が高く,ユーザによって主観的に好まれることを示す。
論文 参考訳(メタデータ) (2023-01-06T15:03:27Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。