論文の概要: Interaction is all You Need? A Study of Robots Ability to Understand and
Execute
- arxiv url: http://arxiv.org/abs/2311.07150v1
- Date: Mon, 13 Nov 2023 08:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:15:29.180608
- Title: Interaction is all You Need? A Study of Robots Ability to Understand and
Execute
- Title(参考訳): 対話だけでいいのか?
ロボットの理解・実行能力に関する研究
- Authors: Kushal Koshti and Nidhir Bhavsar
- Abstract要約: 我々は,コヒーレントダイアログにおける複雑な命令を理解し,実行することができるロボットを装備する。
私たちは、最高の構成が、成功率スコア8.85でベースラインを上回っているのを観察します。
我々は、EDHタスクを拡張し、個々のアクションではなく、ゲームプランに関する予測を行うことで、新しいタスクを導入する。
- 参考スコア(独自算出の注目度): 0.5439020425819
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper aims to address a critical challenge in robotics, which is
enabling them to operate seamlessly in human environments through natural
language interactions. Our primary focus is to equip robots with the ability to
understand and execute complex instructions in coherent dialogs to facilitate
intricate task-solving scenarios. To explore this, we build upon the Execution
from Dialog History (EDH) task from the Teach benchmark. We employ a
multi-transformer model with BART LM. We observe that our best configuration
outperforms the baseline with a success rate score of 8.85 and a
goal-conditioned success rate score of 14.02. In addition, we suggest an
alternative methodology for completing this task. Moreover, we introduce a new
task by expanding the EDH task and making predictions about game plans instead
of individual actions. We have evaluated multiple BART models and an LLaMA2
LLM, which has achieved a ROGUE-L score of 46.77 for this task.
- Abstract(参考訳): 本稿では,自然言語インタラクションによる人間の環境におけるシームレスな操作を可能にするロボット工学における重要な課題を解決することを目的とする。
我々の主な焦点は、複雑なタスク解決シナリオを容易にするために、コヒーレントなダイアログで複雑な命令を理解し実行できるロボットを装備することである。
これを調べるために、challengeベンチマークのdialog history(edh)タスクから実行します。
BART LMを用いたマルチトランスモデルを用いる。
最適構成は、成功率スコア8.85、目標条件成功率スコア14.02でベースラインを上回っている。
さらに,この課題を完遂するための代替手法を提案する。
さらに、edhタスクを拡張し、個別のアクションではなくゲーム計画に関する予測を行うことにより、新たなタスクを導入する。
我々は,複数のBARTモデルとLLaMA2 LLMを評価し,ROGUE-Lスコア46.77を達成している。
関連論文リスト
- COHERENT: Collaboration of Heterogeneous Multi-Robot System with Large Language Models [49.24666980374751]
COHERENTは、異種マルチロボットシステムの協調のための新しいLCMベースのタスク計画フレームワークである。
提案-実行-フィードバック-調整機構は,個々のロボットに対して動作を分解・割り当てするように設計されている。
実験の結果,我々の研究は,成功率と実行効率の面で,従来の手法をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-23T15:53:41Z) - Continual Skill and Task Learning via Dialogue [3.3511259017219297]
連続的かつ対話的なロボット学習は、ロボットが人間のユーザーと一緒にいるため、難しい問題である。
本稿では,人間との対話を通じて,ロボットがロボットのスキルを質問し,学習し,関連する情報を処理するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-05T01:51:54Z) - WorkArena++: Towards Compositional Planning and Reasoning-based Common Knowledge Work Tasks [85.95607119635102]
大型言語モデル(LLM)は人間のような知性を模倣することができる。
WorkArena++は、Webエージェントの計画、問題解決、論理的/論理的推論、検索、コンテキスト的理解能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-07-07T07:15:49Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - Interactively Robot Action Planning with Uncertainty Analysis and Active
Questioning by Large Language Model [6.695536752781623]
ロボット行動計画のための大規模言語モデル(LLM)が活発に研究されている。
自然言語によるLLMへの指示には、タスクコンテキストによる曖昧さと情報の欠如が含まれる。
本研究では,人間に質問することで,LLMが行方不明情報を分析・収集できる対話型ロボット行動計画法を提案する。
論文 参考訳(メタデータ) (2023-08-30T00:54:44Z) - AlphaBlock: Embodied Finetuning for Vision-Language Reasoning in Robot
Manipulation [50.737355245505334]
本稿では,ロボット操作タスクにおける高レベル認知能力を学習するための新しいフレームワークを提案する。
得られたデータセットAlphaBlockは、多段階のテキストプランとペア観測による35の包括的なハイレベルタスクで構成されている。
論文 参考訳(メタデータ) (2023-05-30T09:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。