論文の概要: Spatial Reasoning from Natural Language Instructions for Robot
Manipulation
- arxiv url: http://arxiv.org/abs/2012.13693v2
- Date: Fri, 26 Mar 2021 15:24:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:12:45.101801
- Title: Spatial Reasoning from Natural Language Instructions for Robot
Manipulation
- Title(参考訳): ロボット操作のための自然言語命令からの空間推論
- Authors: Sagar Gubbi Venkatesh and Anirban Biswas and Raviteja Upadrashta and
Vikram Srinivasan and Partha Talukdar and Bharadwaj Amrutur
- Abstract要約: テキスト入力に対して空間的推論を行うための2段階のパイプラインアーキテクチャを提案する。
シーン内の全てのオブジェクトはまずローカライズされ、次に自然言語によるロボットの指示とローカライズされたコーディネートは、開始と終了のコーディネートにマップされる。
提案手法は,ロボットアームを用いてカードをピックアップ・アンド・プレースする。
- 参考スコア(独自算出の注目度): 0.5033155053523041
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robots that can manipulate objects in unstructured environments and
collaborate with humans can benefit immensely by understanding natural
language. We propose a pipelined architecture of two stages to perform spatial
reasoning on the text input. All the objects in the scene are first localized,
and then the instruction for the robot in natural language and the localized
co-ordinates are mapped to the start and end co-ordinates corresponding to the
locations where the robot must pick up and place the object respectively. We
show that representing the localized objects by quantizing their positions to a
binary grid is preferable to representing them as a list of 2D co-ordinates. We
also show that attention improves generalization and can overcome biases in the
dataset. The proposed method is used to pick-and-place playing cards using a
robot arm.
- Abstract(参考訳): 非構造環境で物体を操作し、人間と協調できるロボットは、自然言語を理解することで大きな利益を得ることができる。
テキスト入力に対して空間的推論を行うための2段階のパイプラインアーキテクチャを提案する。
シーン内のすべてのオブジェクトを最初にローカライズし、その後、自然言語におけるロボットの指示とローカライズされたコーディネートを、ロボットがそれぞれオブジェクトをピックアップして配置しなければならない場所に対応する開始と終了のコーディネートにマッピングする。
位置を2次元格子に量子化することで局所オブジェクトを表現することは、2次元座標の一覧として表すよりも好ましいことを示す。
また、注意が一般化を改善し、データセットのバイアスを克服できることも示している。
提案手法は,ロボットアームを用いてカードの選択・配置を行う。
関連論文リスト
- Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。
提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文 参考訳(メタデータ) (2022-06-09T16:05:35Z) - Correcting Robot Plans with Natural Language Feedback [88.92824527743105]
ロボットの修正のための表現的かつ柔軟なツールとして自然言語を探索する。
これらの変換により、ユーザは目標を正し、ロボットの動きを更新し、計画上のエラーから回復できる。
本手法により,シミュレーション環境や実環境において,複数の制約を合成し,未知のシーン,オブジェクト,文に一般化することが可能となる。
論文 参考訳(メタデータ) (2022-04-11T15:22:43Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Composing Pick-and-Place Tasks By Grounding Language [41.075844857146805]
制約のない言語指示に従って任意の物体を選定・配置するロボットシステムを提案する。
提案手法は,入力画像と言語表現からオブジェクトとその関係を推定する。
実世界のpr2ロボットを用いて得られた結果は,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-16T11:29:09Z) - Translating Natural Language Instructions to Computer Programs for Robot
Manipulation [0.6629765271909505]
自然言語命令をPython関数に翻訳し、オブジェクト検出器の出力にアクセスしてシーンをクエリすることを提案する。
提案手法は,ロボットの動作を直接予測するニューラルネットワークの訓練よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-26T07:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。