論文の概要: Composing Pick-and-Place Tasks By Grounding Language
- arxiv url: http://arxiv.org/abs/2102.08094v1
- Date: Tue, 16 Feb 2021 11:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:21:30.647742
- Title: Composing Pick-and-Place Tasks By Grounding Language
- Title(参考訳): 接地言語によるPick-and-Placeタスクの合成
- Authors: Oier Mees, Wolfram Burgard
- Abstract要約: 制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
- 参考スコア(独自算出の注目度): 41.075844857146805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controlling robots to perform tasks via natural language is one of the most
challenging topics in human-robot interaction. In this work, we present a robot
system that follows unconstrained language instructions to pick and place
arbitrary objects and effectively resolves ambiguities through dialogues. Our
approach infers objects and their relationships from input images and language
expressions and can place objects in accordance with the spatial relations
expressed by the user. Unlike previous approaches, we consider grounding not
only for the picking but also for the placement of everyday objects from
language. Specifically, by grounding objects and their spatial relations, we
allow specification of complex placement instructions, e.g. "place it behind
the middle red bowl". Our results obtained using a real-world PR2 robot
demonstrate the effectiveness of our method in understanding pick-and-place
language instructions and sequentially composing them to solve tabletop
manipulation tasks. Videos are available at
http://speechrobot.cs.uni-freiburg.de
- Abstract(参考訳): 自然言語でタスクを実行するロボットを制御することは、人間とロボットの相互作用において最も難しいトピックの1つだ。
本研究では,制約のない言語命令に従って任意の物体を選択・配置し,対話による曖昧さを効果的に解消するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定し,ユーザが表現する空間的関係に応じてオブジェクトを配置する。
従来のアプローチとは異なり、我々はピッキングだけでなく、日常的なオブジェクトを言語から配置するための基盤も検討している。
具体的には、オブジェクトとその空間関係をグラウンド化することで、複雑な配置命令を指定できる。
「中央の赤いボウルの後ろに置きなさい。」
実世界のpr2ロボットを用いて得られた結果は,ピック・アンド・プレース言語命令の理解と逐次構成におけるテーブルトップ操作課題の解法の有効性を示す。
ビデオはhttp://speechrobot.cs.uni-freiburg.deで閲覧できる。
関連論文リスト
- Context-Aware Command Understanding for Tabletop Scenarios [1.7082212774297747]
本稿では,テーブルトップシナリオにおける自然人コマンドの解釈を目的とした,新しいハイブリッドアルゴリズムを提案する。
音声、ジェスチャー、シーンコンテキストを含む複数の情報ソースを統合することにより、ロボットに対して実行可能な指示を抽出する。
システムの長所と短所、特にマルチモーダルコマンド解釈の扱い方について論じる。
論文 参考訳(メタデータ) (2024-10-08T20:46:39Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Spatial Reasoning from Natural Language Instructions for Robot
Manipulation [0.5033155053523041]
テキスト入力に対して空間的推論を行うための2段階のパイプラインアーキテクチャを提案する。
シーン内の全てのオブジェクトはまずローカライズされ、次に自然言語によるロボットの指示とローカライズされたコーディネートは、開始と終了のコーディネートにマップされる。
提案手法は,ロボットアームを用いてカードをピックアップ・アンド・プレースする。
論文 参考訳(メタデータ) (2020-12-26T07:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。