論文の概要: ALFWorld: Aligning Text and Embodied Environments for Interactive
Learning
- arxiv url: http://arxiv.org/abs/2010.03768v2
- Date: Sun, 14 Mar 2021 22:44:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 10:57:20.342455
- Title: ALFWorld: Aligning Text and Embodied Environments for Interactive
Learning
- Title(参考訳): ALFWorld:インタラクティブ学習のためのテキストと身体環境の調整
- Authors: Mohit Shridhar, Xingdi Yuan, Marc-Alexandre C\^ot\'e, Yonatan Bisk,
Adam Trischler, Matthew Hausknecht
- Abstract要約: エージェントがTextWorldで抽象的なテキストベースのポリシーを学習できるシミュレータであるALFWorldを紹介した。
ALFWorldは、抽象的な知識が具体的で視覚的に基盤付けられたアクションに直接対応する新しいBUTLERエージェントを作成することができる。
- 参考スコア(独自算出の注目度): 40.85463766363553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a simple request like Put a washed apple in the kitchen fridge, humans
can reason in purely abstract terms by imagining action sequences and scoring
their likelihood of success, prototypicality, and efficiency, all without
moving a muscle. Once we see the kitchen in question, we can update our
abstract plans to fit the scene. Embodied agents require the same abilities,
but existing work does not yet provide the infrastructure necessary for both
reasoning abstractly and executing concretely. We address this limitation by
introducing ALFWorld, a simulator that enables agents to learn abstract, text
based policies in TextWorld (C\^ot\'e et al., 2018) and then execute goals from
the ALFRED benchmark (Shridhar et al., 2020) in a rich visual environment.
ALFWorld enables the creation of a new BUTLER agent whose abstract knowledge,
learned in TextWorld, corresponds directly to concrete, visually grounded
actions. In turn, as we demonstrate empirically, this fosters better agent
generalization than training only in the visually grounded environment.
BUTLER's simple, modular design factors the problem to allow researchers to
focus on models for improving every piece of the pipeline (language
understanding, planning, navigation, and visual scene understanding).
- Abstract(参考訳): キッチンの冷蔵庫にリンゴを洗うといった単純な要求があれば、人間はアクションシーケンスを想像し、成功率、確率、効率を、筋肉を動かすことなく評価することで、純粋に抽象的な言葉で説明できる。
問題のあるキッチンを見たら、そのシーンに合うように抽象的な計画を更新できる。
エージェントは同じ能力を必要とするが、既存の作業は抽象的な推論と具体的実行の両方に必要なインフラを提供していない。
この制限には、エージェントがTextWorld(C\^ot\'e et al., 2018)で抽象的テキストベースのポリシーを学習し、ALFREDベンチマーク(Shridhar et al., 2020)の目標をリッチなビジュアル環境で実行できるようにするシミュレータALFWorldを導入することで対処する。
ALFWorldは、TextWorldで学んだ抽象的な知識が、具体的で視覚的に根ざしたアクションに直接対応する新しいBUTLERエージェントの作成を可能にする。
実験的に示すように、これは視覚的に接地された環境でのトレーニングよりも優れたエージェントの一般化を促進する。
バトラーのシンプルでモジュラーな設計要素は、研究者がパイプラインのすべての部分(言語理解、計画、ナビゲーション、視覚シーン理解)を改善するためのモデルに集中できる問題である。
関連論文リスト
- Towards Open-World Grasping with Large Vision-Language Models [5.317624228510749]
オープンワールドの把握システムは、高レベルの文脈と低レベルの物理幾何学的推論を組み合わせることができるべきである。
本稿では,視覚言語モデルとセグメンテーションとグルーピング合成モデルを組み合わせたオープンワールドグルーピングパイプラインOWGを提案する。
乱雑な屋内シーンデータセットを用いて,オープンエンド言語を基盤としたOWGのロバスト性を示す。
論文 参考訳(メタデータ) (2024-06-26T19:42:08Z) - Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Emergence and Function of Abstract Representations in Self-Supervised
Transformers [0.0]
本研究では,部分的にマスキングされた視覚シーンを再構築するために訓練された小型トランスフォーマーの内部動作について検討する。
ネットワークは、データセットのすべての意味的特徴をエンコードする中間抽象表現(抽象表現)を開発する。
正確な操作実験を用いて、抽象化がネットワークの意思決定プロセスの中心であることを実証する。
論文 参考訳(メタデータ) (2023-12-08T20:47:15Z) - AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph [62.685920585838616]
抽象能力は人間の知性において必須であり、言語モデルでは未探索のままである。
本稿では、抽象知識の221Kテキスト記述を統一したエンテーメントグラフであるAbsPyramidを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:11:23Z) - Learning Interactive Real-World Simulators [96.5991333400566]
生成モデルを用いて実世界の相互作用の普遍的なシミュレータを学習する可能性について検討する。
シミュレーターを用いて、高レベルな視覚言語ポリシーと低レベルな強化学習ポリシーの両方を訓練する。
ビデオキャプションモデルは、シミュレートされた経験を持つトレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-10-09T19:42:22Z) - Inner Monologue: Embodied Reasoning through Planning with Language
Models [81.07216635735571]
大規模言語モデル(LLM)は自然言語処理以外の領域に適用できる。
具体化された環境でのLLMの計画には、何をすべきかだけでなく、どのように、いつ行うべきかを考える必要がある。
環境フィードバックを活用することで、LLMはロボット制御シナリオにおいてよりリッチな処理と計画を行うことができる内部モノローグを形成することができる。
論文 参考訳(メタデータ) (2022-07-12T15:20:48Z) - Imagination-Augmented Natural Language Understanding [71.51687221130925]
自然言語理解タスクを解決するために,Imagination-Augmented Cross-modal (iACE)を導入する。
iACEは、強力な生成的および事前訓練された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。
GLUEとSWAGの実験は、iACEが視覚的に教師付き事前訓練されたモデルよりも一貫した改善を達成していることを示している。
論文 参考訳(メタデータ) (2022-04-18T19:39:36Z) - VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文 参考訳(メタデータ) (2020-10-26T18:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。