論文の概要: Improving Policy Learning via Language Dynamics Distillation
- arxiv url: http://arxiv.org/abs/2210.00066v1
- Date: Fri, 30 Sep 2022 19:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:03:43.632250
- Title: Improving Policy Learning via Language Dynamics Distillation
- Title(参考訳): 言語ダイナミクス蒸留による政策学習の改善
- Authors: Victor Zhong, Jesse Mu, Luke Zettlemoyer, Edward Grefenstette, Tim
Rockt\"aschel
- Abstract要約: 本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
- 参考スコア(独自算出の注目度): 87.27583619910338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that augmenting environments with language descriptions
improves policy learning. However, for environments with complex language
abstractions, learning how to ground language to observations is difficult due
to sparse, delayed rewards. We propose Language Dynamics Distillation (LDD),
which pretrains a model to predict environment dynamics given demonstrations
with language descriptions, and then fine-tunes these language-aware pretrained
representations via reinforcement learning (RL). In this way, the model is
trained to both maximize expected reward and retain knowledge about how
language relates to environment dynamics. On SILG, a benchmark of five tasks
with language descriptions that evaluate distinct generalization challenges on
unseen environments (NetHack, ALFWorld, RTFM, Messenger, and Touchdown), LDD
outperforms tabula-rasa RL, VAE pretraining, and methods that learn from
unlabeled demonstrations in inverse RL and reward shaping with pretrained
experts. In our analyses, we show that language descriptions in demonstrations
improve sample-efficiency and generalization across environments, and that
dynamics modelling with expert demonstrations is more effective than with
non-experts.
- Abstract(参考訳): 近年の研究では、言語記述による強化環境が政策学習を改善することが示されている。
しかし,複雑な言語を抽象化した環境では,言語を観察する方法について学ぶことは困難である。
本稿では,言語記述を用いた実演による環境動態予測モデルを事前学習し,強化学習(RL)によるこれらの言語対応事前学習表現を微調整するLanguage Dynamics Distillation(LDD)を提案する。
このようにして、モデルは、期待される報酬を最大化し、言語が環境ダイナミクスとどのように関係するかに関する知識を保持するように訓練される。
言語記述を伴う5つのタスク(NetHack、ALFWorld、RTFM、Messenger、Touchdown)のベンチマークでは、LDDはタブララザRL、VAE事前トレーニング、逆RLにおけるラベルなしのデモンストレーションから学習し、事前訓練された専門家との報酬形成方法よりも優れています。
本分析では,実演中の言語記述がサンプル効率と環境横断の一般化を改善できること,また,実演による動的モデリングが非熟練者よりも効果的であることを示す。
関連論文リスト
- LangSuitE: Planning, Controlling and Interacting with Large Language Models in Embodied Text Environments [70.91258869156353]
テキストエンボディの世界における6つの代表的具体的タスクを特徴とする多目的・シミュレーション不要なテストベッドであるLangSuitEを紹介する。
以前のLLMベースのテストベッドと比較すると、LangSuitEは複数のシミュレーションエンジンを使わずに、多様な環境への適応性を提供する。
具体化された状態の履歴情報を要約した新しいチェーン・オブ・ソート(CoT)スキーマであるEmMemを考案する。
論文 参考訳(メタデータ) (2024-06-24T03:36:29Z) - Lexicon-Level Contrastive Visual-Grounding Improves Language Modeling [47.7950860342515]
LexiContrastive Grounding (LCG)は、視覚的監督を利用してテキスト表現を改善する言語学習手法である。
LCGは学習効率において標準言語のみのモデルより優れている。
CLIP、GIT、Flamingo、Vokenizationなど、視覚と言語による学習手順を改善する。
論文 参考訳(メタデータ) (2024-03-21T16:52:01Z) - SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T07:37:06Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Curriculum learning for language modeling [2.2475845406292714]
自然言語処理コミュニティにとって、言語モデルはトランスフォーメーションであることが証明されている。
これらのモデルは高価でエネルギー集約的で、訓練が難しいことが証明されている。
カリキュラム学習は、代わりに構造化されたトレーニング体制を利用する方法である。
論文 参考訳(メタデータ) (2021-08-04T16:53:43Z) - Language Models are Few-Shot Butlers [0.2538209532048867]
本稿では,実演から学ぶ2段階の手順を紹介し,環境との相互作用によりさらに改善する。
本稿では,alfworld環境における既存手法よりも言語モデルに精細な調整を施し,簡単な強化学習アルゴリズムにより51%の成功率を向上できることを示す。
論文 参考訳(メタデータ) (2021-04-16T08:47:07Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。