論文の概要: tagE: Enabling an Embodied Agent to Understand Human Instructions
- arxiv url: http://arxiv.org/abs/2310.15605v1
- Date: Tue, 24 Oct 2023 08:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:03:21.678925
- Title: tagE: Enabling an Embodied Agent to Understand Human Instructions
- Title(参考訳): tagE:人間の指示を理解するために身体的エージェントを起動
- Authors: Chayan Sarkar and Avik Mitra and Pradip Pramanick and Tapas Nayak
- Abstract要約: 我々は, Embodied Agent (tagE) のためのタスク・アンド・引数・グラウンドティング(タスク・アンド・引数・グラウンドディング)と呼ばれる新しいシステムを導入する。
本システムでは,自然言語で表現された複雑なタスク命令から一連のタスクを抽出するために,発明的なニューラルネットワークモデルを採用している。
提案モデルでは,入れ子デコードに富んだエンコーダ・デコーダ・フレームワークを用いて,複雑な命令からタスクとその引数を効果的に抽出する。
- 参考スコア(独自算出の注目度): 3.943519623674811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language serves as the primary mode of communication when an
intelligent agent with a physical presence engages with human beings. While a
plethora of research focuses on natural language understanding (NLU),
encompassing endeavors such as sentiment analysis, intent prediction, question
answering, and summarization, the scope of NLU directed at situations
necessitating tangible actions by an embodied agent remains limited. The
inherent ambiguity and incompleteness inherent in natural language present
challenges for intelligent agents striving to decipher human intention. To
tackle this predicament head-on, we introduce a novel system known as task and
argument grounding for Embodied agents (tagE). At its core, our system employs
an inventive neural network model designed to extract a series of tasks from
complex task instructions expressed in natural language. Our proposed model
adopts an encoder-decoder framework enriched with nested decoding to
effectively extract tasks and their corresponding arguments from these
intricate instructions. These extracted tasks are then mapped (or grounded) to
the robot's established collection of skills, while the arguments find
grounding in objects present within the environment. To facilitate the training
and evaluation of our system, we have curated a dataset featuring complex
instructions. The results of our experiments underscore the prowess of our
approach, as it outperforms robust baseline models.
- Abstract(参考訳): 自然言語は、物理的存在を持つ知的エージェントが人間と関わるとき、コミュニケーションの第一のモードとして機能する。
多くの研究が、感情分析、意図予測、質問応答、要約といった取り組みを含む自然言語理解(NLU)に焦点を当てているが、NLUの範囲は、具体的エージェントによる具体的な行動を必要とする状況に限られている。
自然言語固有の曖昧さと不完全性は、人間の意図を解読しようとする知的エージェントにとっての課題である。
この課題に取り組むため,我々は,具体化エージェント (tage) のためのタスクおよび引数グラウンドと呼ばれる新しいシステムを提案する。
本システムでは,自然言語で表現された複雑なタスク命令から一連のタスクを抽出するために,発明的なニューラルネットワークモデルを採用している。
提案モデルでは,入れ子デコードに富んだエンコーダ・デコーダ・フレームワークを用いて,複雑な命令からタスクとその引数を効果的に抽出する。
抽出されたタスクはロボットの確立したスキルコレクションにマッピング(あるいは接地)され、引数は環境に存在するオブジェクトの接地を見つける。
システムのトレーニングと評価を容易にするため,複雑な命令を含むデータセットをキュレートした。
実験の結果は、ロバストなベースラインモデルよりも優れており、我々のアプローチの長所を浮き彫りにしている。
関連論文リスト
- VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning [86.59849798539312]
本稿では,記号的・神経的知識表現の強みを組み合わせた一階抽象言語Neuro-Symbolic Predicatesを提案する。
提案手法は, サンプルの複雑さの向上, 分布外一般化の強化, 解釈可能性の向上を実現する。
論文 参考訳(メタデータ) (2024-10-30T16:11:05Z) - Symbolic Learning Enables Self-Evolving Agents [55.625275970720374]
エージェントシンボリックラーニング(エージェントシンボリックラーニング)(エージェントシンボリックラーニング)は、言語エージェントが自分自身で最適化できるための体系的なフレームワークである。
エージェント記号学習は、コネクショナリズム学習における2つの基本的なアルゴリズムを模倣することにより、言語エージェント内のシンボルネットワークを最適化するように設計されている。
我々は、標準ベンチマークと複雑な実世界のタスクの両方で概念実証実験を行う。
論文 参考訳(メタデータ) (2024-06-26T17:59:18Z) - Interpretable Robotic Manipulation from Language [11.207620790833271]
本稿では,操作タスクに特化して設計された,Ex-PERACTという説明可能な行動クローニングエージェントを紹介する。
トップレベルでは、モデルは個別のスキルコードを学ぶことを任務とし、下位レベルでは、ポリシーネットワークは問題をボクセル化されたグリッドに変換し、離散化されたアクションをボクセルグリッドにマップする。
提案手法は,RLBenchベンチマークを用いた8つの操作課題にまたがって評価し,Ex-PERACTが競合する政策性能を達成するだけでなく,複雑な環境下でのヒューマンインストラクションとマシン実行のギャップを効果的に橋渡しすることを示した。
論文 参考訳(メタデータ) (2024-05-27T11:02:21Z) - Learning with Language-Guided State Abstractions [58.199148890064826]
高次元観測空間における一般化可能なポリシー学習は、よく設計された状態表現によって促進される。
我々の手法であるLGAは、自然言語の監視と言語モデルからの背景知識を組み合わせて、目に見えないタスクに適した状態表現を自動構築する。
シミュレーションされたロボットタスクの実験では、LGAは人間によって設計されたものと同様の状態抽象化をもたらすが、そのほんの少しの時間で得られる。
論文 参考訳(メタデータ) (2024-02-28T23:57:04Z) - ThinkBot: Embodied Instruction Following with Thought Chain Reasoning [66.09880459084901]
EIF(Embodied Instruction following)は、複雑な環境下でオブジェクトを相互作用させることで、エージェントが人間の指示を完了させる。
我々は,人間の指導における思考連鎖を原因とした思考ボットを提案し,その不足した行動記述を復元する。
私たちのThinkBotは、成功率と実行効率の両面で、最先端のEIFメソッドよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-12-12T08:30:09Z) - In-Context Analogical Reasoning with Pre-Trained Language Models [10.344428417489237]
我々は、AIシステムにおけるアナロジーを支援するために、直感的な言語ベースの抽象化の使用について検討する。
具体的には,大規模事前学習言語モデル(PLM)を視覚的Raven's Progressive Matrices(RPM)に適用する。
PLMはゼロショットリレーショナル推論に顕著な能力を示し、人間のパフォーマンスを超え、教師付き視覚ベースの手法に近づいた。
論文 参考訳(メタデータ) (2023-05-28T04:22:26Z) - Compositional Generalization in Grounded Language Learning via Induced
Model Sparsity [81.38804205212425]
グリッド環境における単純な言語条件のナビゲーション問題について考察する。
本研究では,オブジェクトの指示文と属性のスパース相関を助長するエージェントを設計し,それらを組み合わせて目的を導出する。
我々のエージェントは、少数のデモンストレーションから学習した場合でも、新しいプロパティの組み合わせを含む目標に対して高いレベルのパフォーマンスを維持している。
論文 参考訳(メタデータ) (2022-07-06T08:46:27Z) - One-Shot Learning from a Demonstration with Hierarchical Latent Language [43.140223608960554]
DescribeWorldは、接地エージェントにおけるこのような一般化スキルをテストするために設計された環境である。
エージェントはMinecraftのようなグリッドワールドでひとつのタスクのデモを観察し、その後、新しいマップで同じタスクを実行するように要求される。
テキストベースの推論を行うエージェントは,タスクをランダムに分割した状態での課題に対して,より適していることがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:36:43Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - Semantics-Aware Inferential Network for Natural Language Understanding [79.70497178043368]
このようなモチベーションを満たすために,セマンティックス対応推論ネットワーク(SAIN)を提案する。
SAINの推論モジュールは、明示的な文脈的セマンティクスを補完的な入力として、セマンティクス上の一連の推論ステップを可能にする。
本モデルでは,機械読解や自然言語推論など11タスクの大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-04-28T07:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。