論文の概要: Interaction is all You Need? A Study of Robots Ability to Understand and
Execute
- arxiv url: http://arxiv.org/abs/2311.07150v1
- Date: Mon, 13 Nov 2023 08:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:15:29.180608
- Title: Interaction is all You Need? A Study of Robots Ability to Understand and
Execute
- Title(参考訳): 対話だけでいいのか?
ロボットの理解・実行能力に関する研究
- Authors: Kushal Koshti and Nidhir Bhavsar
- Abstract要約: 我々は,コヒーレントダイアログにおける複雑な命令を理解し,実行することができるロボットを装備する。
私たちは、最高の構成が、成功率スコア8.85でベースラインを上回っているのを観察します。
我々は、EDHタスクを拡張し、個々のアクションではなく、ゲームプランに関する予測を行うことで、新しいタスクを導入する。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to address a critical challenge in robotics, which is
enabling them to operate seamlessly in human environments through natural
language interactions. Our primary focus is to equip robots with the ability to
understand and execute complex instructions in coherent dialogs to facilitate
intricate task-solving scenarios. To explore this, we build upon the Execution
from Dialog History (EDH) task from the Teach benchmark. We employ a
multi-transformer model with BART LM. We observe that our best configuration
outperforms the baseline with a success rate score of 8.85 and a
goal-conditioned success rate score of 14.02. In addition, we suggest an
alternative methodology for completing this task. Moreover, we introduce a new
task by expanding the EDH task and making predictions about game plans instead
of individual actions. We have evaluated multiple BART models and an LLaMA2
LLM, which has achieved a ROGUE-L score of 46.77 for this task.
- Abstract(参考訳): 本稿では,自然言語インタラクションによる人間の環境におけるシームレスな操作を可能にするロボット工学における重要な課題を解決することを目的とする。
我々の主な焦点は、複雑なタスク解決シナリオを容易にするために、コヒーレントなダイアログで複雑な命令を理解し実行できるロボットを装備することである。
これを調べるために、challengeベンチマークのdialog history(edh)タスクから実行します。
BART LMを用いたマルチトランスモデルを用いる。
最適構成は、成功率スコア8.85、目標条件成功率スコア14.02でベースラインを上回っている。
さらに,この課題を完遂するための代替手法を提案する。
さらに、edhタスクを拡張し、個別のアクションではなくゲーム計画に関する予測を行うことにより、新たなタスクを導入する。
我々は,複数のBARTモデルとLLaMA2 LLMを評価し,ROGUE-Lスコア46.77を達成している。
関連論文リスト
- Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Interactively Robot Action Planning with Uncertainty Analysis and Active
Questioning by Large Language Model [6.695536752781623]
ロボット行動計画のための大規模言語モデル(LLM)が活発に研究されている。
自然言語によるLLMへの指示には、タスクコンテキストによる曖昧さと情報の欠如が含まれる。
本研究では,人間に質問することで,LLMが行方不明情報を分析・収集できる対話型ロボット行動計画法を提案する。
論文 参考訳(メタデータ) (2023-08-30T00:54:44Z) - LEMMA: Learning Language-Conditioned Multi-Robot Manipulation [21.75163634731677]
LanguagE-Conditioned Multi-robot Manipulation (LEMMA)
LeMMAは、手続き的に生成されるタスクが8種類あり、複雑さは様々である。
それぞれのタスクに対して,800の専門的なデモンストレーションと,トレーニングと評価のためのヒューマンインストラクションを提供します。
論文 参考訳(メタデータ) (2023-08-02T04:37:07Z) - RoCo: Dialectic Multi-Robot Collaboration with Large Language Models [13.260289557301688]
我々は,事前学習された大規模言語モデル(LLM)のパワーを利用する,マルチロボット協調のための新しいアプローチを提案する。
そこで,RoCoはロボットエージェントとコミュニケーションし,協調してタスクを完了させることができる。
論文 参考訳(メタデータ) (2023-07-10T17:52:01Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z) - ProgPrompt: Generating Situated Robot Task Plans using Large Language
Models [68.57918965060787]
大規模言語モデル(LLM)は、タスク計画中の潜在的な次のアクションを評価するために使用することができる。
本稿では, プログラム型LCMプロンプト構造を用いて, 配置環境間での計画生成機能を実現する。
論文 参考訳(メタデータ) (2022-09-22T20:29:49Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。