論文の概要: Grounding Language to Entities and Dynamics for Generalization in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.07393v1
- Date: Tue, 19 Jan 2021 00:59:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:34:33.525244
- Title: Grounding Language to Entities and Dynamics for Generalization in
Reinforcement Learning
- Title(参考訳): 強化学習における接地言語とその一般化のためのダイナミクス
- Authors: H. J. Austin Wang and Karthik Narasimhan
- Abstract要約: 我々は,新しいシナリオへの制御方針の一般化を改善するために,テキスト記述を利用する問題を考える。
マルチモーダルエンティティコンディションの注意モジュールを使用する新しいモデル、EMMAを開発しています。
EMMAはエンドツーエンドの微分可能であり、テキストから観察までエンティティとダイナミクスの潜在基盤を学ぶことができる。
- 参考スコア(独自算出の注目度): 20.43004852346133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the problem of leveraging textual descriptions to
improve generalization of control policies to new scenarios. Unlike prior work
in this space, we do not assume access to any form of prior knowledge
connecting text and state observations, and learn both symbol grounding and
control policy simultaneously. This is challenging due to a lack of concrete
supervision, and incorrect groundings can result in worse performance than
policies that do not use the text at all. We develop a new model, EMMA (Entity
Mapper with Multi-modal Attention) which uses a multi-modal entity-conditioned
attention module that allows for selective focus over relevant sentences in the
manual for each entity in the environment. EMMA is end-to-end differentiable
and can learn a latent grounding of entities and dynamics from text to
observations using environment rewards as the only source of supervision. To
empirically test our model, we design a new framework of 1320 games and collect
text manuals with free-form natural language via crowd-sourcing. We demonstrate
that EMMA achieves successful zero-shot generalization to unseen games with new
dynamics, obtaining significantly higher rewards compared to multiple
baselines. The grounding acquired by EMMA is also robust to noisy descriptions
and linguistic variation.
- Abstract(参考訳): 本稿では,新しいシナリオに対する制御ポリシーの一般化を改善するために,テキスト記述を活用するという課題について考察する。
この分野での先行研究とは異なり、我々はテキストと状態観察を接続する事前知識へのアクセスを前提とせず、シンボル接地と制御ポリシーを同時に学習する。
これは、具体的な監督の欠如による難題であり、誤った根拠付けは、テキストをまったく使わないポリシーよりもパフォーマンスが悪くなる可能性がある。
本研究では,マルチモーダル・エンティティ・コンディション・アテンション・モジュールを用いた新しいモデルであるemma(entity mapper with multi-modal attention)を開発した。
EMMAはエンド・ツー・エンドの差別化が可能であり、環境報酬を唯一の監督源とすることで、テキストから観察までエンティティとダイナミクスの潜在基盤を学習することができる。
このモデルを実証的にテストするために,1320ゲームの新しいフレームワークを設計し,フリーフォーム自然言語によるテキストマニュアルをクラウドソーシングによって収集する。
我々は、emmaが新たなダイナミクスを持つゲームに対してゼロショット一般化を成功させ、複数のベースラインと比較してはるかに高い報酬を得ることを実証する。
EMMAが取得した基盤は、ノイズの多い記述や言語的変異にも頑丈である。
関連論文リスト
- LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Adapting Large Language Models to Domains via Reading Comprehension [86.24451681746676]
ドメイン固有コーパスの事前学習が大規模言語モデルに与える影響について検討する。
生のコーパスでのトレーニングはドメイン知識でモデルを養うが、問合せ能力を大幅に損なう。
生コーパスを可読テキストに変換する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-09-18T07:17:52Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Dependency Induction Through the Lens of Visual Perception [81.91502968815746]
本稿では,単語の具体性を利用した教師なし文法帰納モデルと,構成的視覚に基づく構成的文法を共同学習する手法を提案する。
実験により,提案した拡張は,文法的サイズが小さい場合でも,現在最先端の視覚的接地モデルよりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-09-20T18:40:37Z) - KELM: Knowledge Enhanced Pre-Trained Language Representations with
Message Passing on Hierarchical Relational Graphs [26.557447199727758]
本稿では,微調整プロセスに基づく知識認識型言語モデルフレームワークを提案する。
我々のモデルは、KGからの世界知識をBERTのような既存の言語モデルに効率的に組み込むことができる。
論文 参考訳(メタデータ) (2021-09-09T12:39:17Z) - Zero-Shot Compositional Policy Learning via Language Grounding [13.45138913186308]
人間は、言語記述のような世界に関する事前の知識を活用することで、新しいタスクに迅速に適応することができる。
本研究では,環境のダイナミクスを視覚的外観から切り離す新たな研究プラットフォームであるBabyAI++を紹介する。
現在の言語誘導型RL/IL技術は、トレーニング環境に過度に適合し、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
論文 参考訳(メタデータ) (2020-04-15T16:58:19Z) - Contextual Policy Transfer in Reinforcement Learning Domains via Deep
Mixtures-of-Experts [24.489002406693128]
そこで本稿では,タスクのダイナミクスに関する状態依存的信念を学習するための,新しいミックス・オブ・エキスパートの定式化について紹介する。
我々は、このモデルを標準ポリシー再利用フレームワークに組み込む方法を示す。
論文 参考訳(メタデータ) (2020-02-29T07:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。