Fugu-MT 論文翻訳(概要): IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents

論文の概要: IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents

arxiv url: http://arxiv.org/abs/2206.00142v1
Date: Tue, 31 May 2022 23:08:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-02 15:53:38.672256
Title: IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents
Title（参考訳）: IGLU Gridworld: ダイアログエージェントのシンプルで高速な環境
Authors: Artem Zholus, Alexey Skrynnik, Shrestha Mohanty, Zoya Volovikova, Julia Kiseleva, Artur Szlam, Marc-Alexandre Cot\'e, Aleksandr I. Panov
Abstract要約: 本稿では,言語条件付きエンボディエージェントをスケーラブルに構築・評価するための強化学習環境IGLU Gridworldを提案する。この環境は、視覚エージェントの具体化、コラボレーションによるインタラクティブな学習、言語条件付きRL、複合的なハードタスク(3dブロック)空間を備えている。
参考スコア（独自算出の注目度）: 54.300585048295225
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present the IGLU Gridworld: a reinforcement learning environment for building and evaluating language conditioned embodied agents in a scalable way. The environment features visual agent embodiment, interactive learning through collaboration, language conditioned RL, and combinatorically hard task (3d blocks building) space.
Abstract（参考訳）: 本稿では,言語条件付きエンボディエージェントをスケーラブルに構築・評価するための強化学習環境IGLU Gridworldを提案する。この環境は、視覚エージェントの具体化、コラボレーションによるインタラクティブな学習、言語条件付きRL、複合的なハードタスク(3dブロック)空間を備えている。

関連論文リスト

debug-gym: A Text-Based Environment for Interactive Debugging [55.11603087371956]
大規模言語モデル(LLM)は、コーディングタスクにますます依存している。 LLMは、タスクに関連する情報を集めるために対話的にAを探索する能力の恩恵を受けることができると仮定する。対話型符号化環境において,LLMベースのエージェントを開発するためのテキスト環境,すなわちデバッグジャムを提案する。
論文参考訳（メタデータ） (2025-03-27T14:43:28Z)
VLM-driven Behavior Tree for Context-aware Task Planning [8.07285448283823]
本稿では、視覚言語モデル(VLM)を利用して行動木(BT)を対話的に生成・編集する新しいフレームワークを提案する。我々のアプローチの重要な特徴は、自己進行型視覚条件による条件制御にある。われわれのフレームワークを実世界のカフェのシナリオで検証し、その実現可能性と限界を実証した。
論文参考訳（メタデータ） (2025-01-07T18:06:27Z)
Instruction Following with Goal-Conditioned Reinforcement Learning in Virtual Environments [42.06453257292203]
本稿では,大規模言語モデルの深い言語理解と強化学習エージェントの適応行動実行能力を組み合わせた階層型フレームワークを提案する。 IGLUではエージェントが構造を構築するように指示され、Crafterではエージェントがタスクを実行し、言語コマンドに従って周辺環境のオブジェクトと対話する。
論文参考訳（メタデータ） (2024-07-12T14:19:36Z)
LEGENT: Open Platform for Embodied Agents [60.71847900126832]
LEGENTはLarge Language Models (LLM) とLarge Multimodal Models (LMM) を用いたエンボディエージェントを開発するためのオープンでスケーラブルなプラットフォームである。 LEGENTはリッチでインタラクティブな3D環境を提供し、コミュニケーション可能でアクション可能なエージェントをユーザフレンドリーなインターフェースと組み合わせている。実験では、EGENT生成データに基づいて訓練された胚性視覚言語モデルが、エンボディタスクにおいてGPT-4Vを超える。
論文参考訳（メタデータ） (2024-04-28T16:50:12Z)
Scaling Instructable Agents Across Many Simulated Worlds [70.97268311053328]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文参考訳（メタデータ） (2024-03-13T17:50:32Z)
Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments [20.114506226598508]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。上記の問題を解決するために,新しい環境表現を提案する。
論文参考訳（メタデータ） (2023-01-11T08:04:18Z)
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。 CLEAR: 言語横断表現と環境非依存表現を提案する。我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文参考訳（メタデータ） (2022-07-05T17:38:59Z)
SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark [62.34200575624785]
マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。 SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。 SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
論文参考訳（メタデータ） (2021-10-20T17:02:06Z)
Semantic Tracklets: An Object-Centric Representation for Visual Multi-Agent Reinforcement Learning [126.57680291438128]
本研究では,不整合表現によるスケーラビリティの実現について検討する。視覚多エージェント粒子環境(VMPE)と視覚多エージェントGFootball環境における意味トラックレット'の評価を行った。特に,この手法は視覚データのみを用いて,GFootball環境における5人のプレイヤーの戦略を学習した最初の方法である。
論文参考訳（メタデータ） (2021-08-06T22:19:09Z)
VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文参考訳（メタデータ） (2020-10-26T18:51:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。