論文の概要: SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark
- arxiv url: http://arxiv.org/abs/2110.10661v1
- Date: Wed, 20 Oct 2021 17:02:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-23 17:00:10.289770
- Title: SILG: The Multi-environment Symbolic Interactive Language Grounding
Benchmark
- Title(参考訳): SILG: マルチ環境シンボリック対話型言語グラウンドベンチマーク
- Authors: Victor Zhong and Austin W. Hanjie and Sida I. Wang and Karthik
Narasimhan and Luke Zettlemoyer
- Abstract要約: マルチ環境対話型言語グラウンドベンチマーク(SILG)を提案する。
SILGは、新しいダイナミクス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境で構成されている。
SILGを用いた自己中心型局所的畳み込み,再帰状態追跡,エンティティ中心の注意,事前訓練によるLMなどの最近の進歩を評価した。
- 参考スコア(独自算出の注目度): 62.34200575624785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing work in language grounding typically study single environments. How
do we build unified models that apply across multiple environments? We propose
the multi-environment Symbolic Interactive Language Grounding benchmark (SILG),
which unifies a collection of diverse grounded language learning environments
under a common interface. SILG consists of grid-world environments that require
generalization to new dynamics, entities, and partially observed worlds (RTFM,
Messenger, NetHack), as well as symbolic counterparts of visual worlds that
require interpreting rich natural language with respect to complex scenes
(ALFWorld, Touchdown). Together, these environments provide diverse grounding
challenges in richness of observation space, action space, language
specification, and plan complexity. In addition, we propose the first shared
model architecture for RL on these environments, and evaluate recent advances
such as egocentric local convolution, recurrent state-tracking, entity-centric
attention, and pretrained LM using SILG. Our shared architecture achieves
comparable performance to environment-specific architectures. Moreover, we find
that many recent modelling advances do not result in significant gains on
environments other than the one they were designed for. This highlights the
need for a multi-environment benchmark. Finally, the best models significantly
underperform humans on SILG, which suggests ample room for future work. We hope
SILG enables the community to quickly identify new methodologies for language
grounding that generalize to a diverse set of environments and their associated
challenges.
- Abstract(参考訳): 言語基盤における既存の作業は通常、単一の環境を研究する。
複数の環境に適用可能な統一モデルをどのように構築するか?
本稿では,多言語学習環境を共通インタフェースで統合する多環境シンボリック対話型言語基盤ベンチマーク(SILG)を提案する。
SILGは、新しいダイナミックス、エンティティ、部分的に観察された世界(RTFM、Messenger、NetHack)への一般化を必要とするグリッドワールド環境と、複雑なシーン(ALFWorld、Touchdown)に関してリッチな自然言語を解釈する必要がある視覚世界の象徴的な環境で構成されている。
これらの環境は、観察空間の豊かさ、行動空間、言語仕様、計画複雑さといった様々な基礎的な課題を提供する。
さらに,これらの環境におけるrlのための最初の共有モデルアーキテクチャを提案し,自己中心型局所畳み込み,再帰的状態追跡,エンティティ中心の注意,silgを用いた事前学習されたlmなどの最近の進歩を評価する。
共有アーキテクチャは環境特化アーキテクチャに匹敵する性能を達成する。
さらに,近年のモデリングの進歩の多くは,設計した環境以外の環境において大きな利益を得られないことが判明した。
これはマルチ環境ベンチマークの必要性を強調している。
そして最後に、最高のモデルがSILG上で人間を著しく下回る結果となり、将来の作業には十分な余地が示唆された。
SILGにより、コミュニティは、様々な環境とその関連する課題に一般化する言語基盤の新しい方法論を迅速に特定できることを期待します。
関連論文リスト
- Scaling Instructable Agents Across Many Simulated Worlds [71.1284502230496]
私たちのゴールは、シミュレーションされた3D環境で人間ができることを何でも達成できるエージェントを開発することです。
我々のアプローチは、最小限の仮定を示唆しながら、言語駆動の一般性に焦点を当てている。
我々のエージェントは、汎用的なヒューマンライクなインタフェースを使って、リアルタイムで環境と対話する。
論文 参考訳(メタデータ) (2024-03-13T17:50:32Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Graph based Environment Representation for Vision-and-Language
Navigation in Continuous Environments [20.114506226598508]
VLN-CE(Vision-and-Language Navigation in Continuous Environments)は、エージェントが現実的な環境で言語命令に従う必要があるナビゲーションタスクである。
上記の問題を解決するために,新しい環境表現を提案する。
論文 参考訳(メタデータ) (2023-01-11T08:04:18Z) - Improving Policy Learning via Language Dynamics Distillation [87.27583619910338]
本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
論文 参考訳(メタデータ) (2022-09-30T19:56:04Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - IGLU Gridworld: Simple and Fast Environment for Embodied Dialog Agents [54.300585048295225]
本稿では,言語条件付きエンボディエージェントをスケーラブルに構築・評価するための強化学習環境IGLU Gridworldを提案する。
この環境は、視覚エージェントの具体化、コラボレーションによるインタラクティブな学習、言語条件付きRL、複合的なハードタスク(3dブロック)空間を備えている。
論文 参考訳(メタデータ) (2022-05-31T23:08:22Z) - Sim-To-Real Transfer of Visual Grounding for Human-Aided Ambiguity
Resolution [0.0]
視覚的接地という課題について考察し, エージェントは, 混み合ったシーンからオブジェクトを抽出し, 自然言語で記述する。
視覚的接地に対する現代の全体論的アプローチは、言語構造を無視し、ジェネリックドメインをカバーするのに苦労する。
実体,属性,空間関係の合成視覚的グラウンド化のための,完全に分離されたモジュラー・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-24T14:12:32Z) - VisualHints: A Visual-Lingual Environment for Multimodal Reinforcement
Learning [14.553086325168803]
テキストベースのインタラクションと視覚的ヒント(環境から得られる)を含むマルチモーダル強化学習(RL)のための新しい環境であるVisualHintsを提案する。
環境全体に散在する視覚的手がかりを付加したTextWorld調理環境の拡張について紹介する。
目標は、RLエージェントがテキストと視覚の両方を使って自然言語のアクションコマンドを予測して、食事の調理の最終タスクを解決することである。
論文 参考訳(メタデータ) (2020-10-26T18:51:02Z) - Ecological Semantics: Programming Environments for Situated Language
Understanding [25.853707930426175]
基底言語学習アプローチは、よりリッチでより構造化されたトレーニング環境に学習を集中させることによって、より深い理解の約束を提供する。
環境を意味表現における「第一級市民」として扱うことを提案する。
我々は、モデルが手当の言語で理解し、プログラムし始めなければならないと論じている。
論文 参考訳(メタデータ) (2020-03-10T08:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。