論文の概要: tagE: Enabling an Embodied Agent to Understand Human Instructions
- arxiv url: http://arxiv.org/abs/2310.15605v1
- Date: Tue, 24 Oct 2023 08:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:03:21.678925
- Title: tagE: Enabling an Embodied Agent to Understand Human Instructions
- Title(参考訳): tagE:人間の指示を理解するために身体的エージェントを起動
- Authors: Chayan Sarkar and Avik Mitra and Pradip Pramanick and Tapas Nayak
- Abstract要約: 我々は, Embodied Agent (tagE) のためのタスク・アンド・引数・グラウンドティング(タスク・アンド・引数・グラウンドディング)と呼ばれる新しいシステムを導入する。
本システムでは,自然言語で表現された複雑なタスク命令から一連のタスクを抽出するために,発明的なニューラルネットワークモデルを採用している。
提案モデルでは,入れ子デコードに富んだエンコーダ・デコーダ・フレームワークを用いて,複雑な命令からタスクとその引数を効果的に抽出する。
- 参考スコア(独自算出の注目度): 3.943519623674811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language serves as the primary mode of communication when an
intelligent agent with a physical presence engages with human beings. While a
plethora of research focuses on natural language understanding (NLU),
encompassing endeavors such as sentiment analysis, intent prediction, question
answering, and summarization, the scope of NLU directed at situations
necessitating tangible actions by an embodied agent remains limited. The
inherent ambiguity and incompleteness inherent in natural language present
challenges for intelligent agents striving to decipher human intention. To
tackle this predicament head-on, we introduce a novel system known as task and
argument grounding for Embodied agents (tagE). At its core, our system employs
an inventive neural network model designed to extract a series of tasks from
complex task instructions expressed in natural language. Our proposed model
adopts an encoder-decoder framework enriched with nested decoding to
effectively extract tasks and their corresponding arguments from these
intricate instructions. These extracted tasks are then mapped (or grounded) to
the robot's established collection of skills, while the arguments find
grounding in objects present within the environment. To facilitate the training
and evaluation of our system, we have curated a dataset featuring complex
instructions. The results of our experiments underscore the prowess of our
approach, as it outperforms robust baseline models.
- Abstract(参考訳): 自然言語は、物理的存在を持つ知的エージェントが人間と関わるとき、コミュニケーションの第一のモードとして機能する。
多くの研究が、感情分析、意図予測、質問応答、要約といった取り組みを含む自然言語理解(NLU)に焦点を当てているが、NLUの範囲は、具体的エージェントによる具体的な行動を必要とする状況に限られている。
自然言語固有の曖昧さと不完全性は、人間の意図を解読しようとする知的エージェントにとっての課題である。
この課題に取り組むため,我々は,具体化エージェント (tage) のためのタスクおよび引数グラウンドと呼ばれる新しいシステムを提案する。
本システムでは,自然言語で表現された複雑なタスク命令から一連のタスクを抽出するために,発明的なニューラルネットワークモデルを採用している。
提案モデルでは,入れ子デコードに富んだエンコーダ・デコーダ・フレームワークを用いて,複雑な命令からタスクとその引数を効果的に抽出する。
抽出されたタスクはロボットの確立したスキルコレクションにマッピング(あるいは接地)され、引数は環境に存在するオブジェクトの接地を見つける。
システムのトレーニングと評価を容易にするため,複雑な命令を含むデータセットをキュレートした。
実験の結果は、ロバストなベースラインモデルよりも優れており、我々のアプローチの長所を浮き彫りにしている。
関連論文リスト
- Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - Brain in a Vat: On Missing Pieces Towards Artificial General
Intelligence in Large Language Models [83.63242931107638]
本稿では,知的エージェントの4つの特徴について述べる。
実世界の物体との活発な関わりは、概念的表現を形成するためのより堅牢な信号をもたらすと我々は主張する。
我々は、人工知能分野における将来的な研究の方向性を概説して結論付ける。
論文 参考訳(メタデータ) (2023-07-07T13:58:16Z) - In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。
具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。
PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文 参考訳(メタデータ) (2023-05-28T04:22:26Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - One-Shot Learning from a Demonstration with Hierarchical Latent Language [43.140223608960554]
DescribeWorldは、接地エージェントにおけるこのような一般化スキルをテストするために設計された環境である。
エージェントはMinecraftのようなグリッドワールドでひとつのタスクのデモを観察し、その後、新しいマップで同じタスクを実行するように要求される。
テキストベースの推論を行うエージェントは,タスクをランダムに分割した状態での課題に対して,より適していることがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:36:43Z) - Multitasking Inhibits Semantic Drift [46.71462510028727]
潜在言語政策(LLP)における学習のダイナミクスについて検討する。
LLPは長距離強化学習の課題を解くことができる。
これまでの研究では、LPPトレーニングは意味的ドリフトの傾向が見られた。
論文 参考訳(メタデータ) (2021-04-15T03:42:17Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z) - Deep compositional robotic planners that follow natural language
commands [21.481360281719006]
サンプルベースのロボットプランナが、自然言語コマンドのシーケンスを理解するためにどのように拡張できるかを示す。
我々のアプローチは、オブジェクト、動詞、空間関係、属性を含む複雑なコマンドのパースに基づいて構築されたディープネットワークを組み合わせる。
論文 参考訳(メタデータ) (2020-02-12T19:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。