論文の概要: IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents
- arxiv url: http://arxiv.org/abs/2206.00142v1
- Date: Tue, 31 May 2022 23:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-02 15:53:38.672256
- Title: IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents
- Title(参考訳): IGLU Gridworld: ダイアログエージェントのシンプルで高速な環境
- Authors: Artem Zholus, Alexey Skrynnik, Shrestha Mohanty, Zoya Volovikova,
Julia Kiseleva, Artur Szlam, Marc-Alexandre Cot\'e, Aleksandr I. Panov
- Abstract要約: 本稿では,言語条件付きエンボディエージェントをスケーラブルに構築・評価するための強化学習環境IGLU Gridworldを提案する。
この環境は、視覚エージェントの具体化、コラボレーションによるインタラクティブな学習、言語条件付きRL、複合的なハードタスク(3dブロック)空間を備えている。
- 参考スコア(独自算出の注目度): 54.300585048295225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the IGLU Gridworld: a reinforcement learning environment for
building and evaluating language conditioned embodied agents in a scalable way.
The environment features visual agent embodiment, interactive learning through
collaboration, language conditioned RL, and combinatorically hard task (3d
blocks building) space.
- Abstract(参考訳): 本稿では,言語条件付きエンボディエージェントをスケーラブルに構築・評価するための強化学習環境IGLU Gridworldを提案する。
この環境は、視覚エージェントの具体化、コラボレーションによるインタラクティブな学習、言語条件付きRL、複合的なハードタスク(3dブロック)空間を備えている。
関連論文リスト
- Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments [42.06453257292203]
本稿では,大規模言語モデルの深い言語理解と強化学習エージェントの適応行動実行能力を組み合わせた階層型フレームワークを提案する。
IGLUではエージェントが構造を構築するように指示され、Crafterではエージェントがタスクを実行し、言語コマンドに従って周辺環境のオブジェクトと対話する。
論文 参考訳(メタデータ) (2024-07-12T14:19:36Z) - LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。
LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。
実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文 参考訳(メタデータ) (2024-04-28T16:50:12Z) - Scaling Instructable Agents Across Many Simulated Worlds [71.1284502230496]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Graph based Environment Representation for Vision-and-Language
Navigation in Continuous Environments [20.114506226598508]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。
上記の問題を解決するために,新しい環境表現を提案する。
論文 参考訳(メタデータ) (2023-01-11T08:04:18Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。
SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。
SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文 参考訳(メタデータ) (2021-10-20T17:02:06Z) - Semantic Tracklets: An Object-Centric Representation for Visual
Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。
視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。
特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文 参考訳(メタデータ) (2021-08-06T22:19:09Z) - VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文 参考訳(メタデータ) (2020-10-26T18:51:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。