論文の概要: Improving Policy Learning via Language Dynamics Distillation
- arxiv url: http://arxiv.org/abs/2210.00066v1
- Date: Fri, 30 Sep 2022 19:56:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 13:03:43.632250
- Title: Improving Policy Learning via Language Dynamics Distillation
- Title(参考訳): 言語ダイナミクス蒸留による政策学習の改善
- Authors: Victor Zhong, Jesse Mu, Luke Zettlemoyer, Edward Grefenstette, Tim
Rockt\"aschel
- Abstract要約: 本稿では,言語記述による実演を前提とした環境動態予測モデルであるLanguage Dynamics Distillation(LDD)を提案する。
実演における言語記述は,環境全体にわたるサンプル効率と一般化を改善することを示す。
- 参考スコア(独自算出の注目度): 87.27583619910338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that augmenting environments with language descriptions
improves policy learning. However, for environments with complex language
abstractions, learning how to ground language to observations is difficult due
to sparse, delayed rewards. We propose Language Dynamics Distillation (LDD),
which pretrains a model to predict environment dynamics given demonstrations
with language descriptions, and then fine-tunes these language-aware pretrained
representations via reinforcement learning (RL). In this way, the model is
trained to both maximize expected reward and retain knowledge about how
language relates to environment dynamics. On SILG, a benchmark of five tasks
with language descriptions that evaluate distinct generalization challenges on
unseen environments (NetHack, ALFWorld, RTFM, Messenger, and Touchdown), LDD
outperforms tabula-rasa RL, VAE pretraining, and methods that learn from
unlabeled demonstrations in inverse RL and reward shaping with pretrained
experts. In our analyses, we show that language descriptions in demonstrations
improve sample-efficiency and generalization across environments, and that
dynamics modelling with expert demonstrations is more effective than with
non-experts.
- Abstract(参考訳): 近年の研究では、言語記述による強化環境が政策学習を改善することが示されている。
しかし,複雑な言語を抽象化した環境では,言語を観察する方法について学ぶことは困難である。
本稿では,言語記述を用いた実演による環境動態予測モデルを事前学習し,強化学習(RL)によるこれらの言語対応事前学習表現を微調整するLanguage Dynamics Distillation(LDD)を提案する。
このようにして、モデルは、期待される報酬を最大化し、言語が環境ダイナミクスとどのように関係するかに関する知識を保持するように訓練される。
言語記述を伴う5つのタスク(NetHack、ALFWorld、RTFM、Messenger、Touchdown)のベンチマークでは、LDDはタブララザRL、VAE事前トレーニング、逆RLにおけるラベルなしのデモンストレーションから学習し、事前訓練された専門家との報酬形成方法よりも優れています。
本分析では,実演中の言語記述がサンプル効率と環境横断の一般化を改善できること,また,実演による動的モデリングが非熟練者よりも効果的であることを示す。
関連論文リスト
- SINC: Self-Supervised In-Context Learning for Vision-Language Tasks [64.44336003123102]
大規模言語モデルにおけるコンテキスト内学習を実現するためのフレームワークを提案する。
メタモデルは、カスタマイズされたデモからなる自己教師型プロンプトで学ぶことができる。
実験の結果、SINCは様々な視覚言語タスクにおいて勾配に基づく手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-15T08:33:08Z) - Unsupervised Improvement of Factual Knowledge in Language Models [4.5788796239850225]
マスケッド言語モデリングは、大規模言語モデルの事前訓練において重要な役割を果たす。
本稿では,様々な知識集約型タスクにおいて,言語モデルの性能を向上させる方法として,事前学習に影響を与えるアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-04T07:37:06Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Skill Induction and Planning with Latent Language [94.55783888325165]
我々は、ゴールがハイレベルなサブタスク記述のシーケンスを生成するアクションシーケンスの生成モデルを定式化する。
本稿では、このモデルを、主に注釈のないデモを用いて、名前付きハイレベルなサブタスクのシーケンスに解析する方法について述べる。
訓練されたモデルでは、自然言語コマンドの空間はスキルのライブラリを索引付けする;エージェントはこれらのスキルを使って、新しい目標に適した高いレベルの命令シーケンスを生成する。
論文 参考訳(メタデータ) (2021-10-04T15:36:32Z) - Curriculum learning for language modeling [2.2475845406292714]
自然言語処理コミュニティにとって、言語モデルはトランスフォーメーションであることが証明されている。
これらのモデルは高価でエネルギー集約的で、訓練が難しいことが証明されている。
カリキュラム学習は、代わりに構造化されたトレーニング体制を利用する方法である。
論文 参考訳(メタデータ) (2021-08-04T16:53:43Z) - Language Models are Few-Shot Butlers [0.2538209532048867]
本稿では,実演から学ぶ2段階の手順を紹介し,環境との相互作用によりさらに改善する。
本稿では,alfworld環境における既存手法よりも言語モデルに精細な調整を施し,簡単な強化学習アルゴリズムにより51%の成功率を向上できることを示す。
論文 参考訳(メタデータ) (2021-04-16T08:47:07Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Learning Spoken Language Representations with Neural Lattice Language
Modeling [39.50831917042577]
本稿では,音声言語理解タスクのための文脈表現を提供するために,ニューラルネットワーク言語モデルを訓練するフレームワークを提案する。
提案する2段階事前学習手法は,音声データの要求を低減し,効率を向上する。
論文 参考訳(メタデータ) (2020-07-06T10:38:03Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - Zero-Shot Compositional Policy Learning via Language Grounding [13.45138913186308]
人間は、言語記述のような世界に関する事前の知識を活用することで、新しいタスクに迅速に適応することができる。
本研究では,環境のダイナミクスを視覚的外観から切り離す新たな研究プラットフォームであるBabyAI++を紹介する。
現在の言語誘導型RL/IL技術は、トレーニング環境に過度に適合し、目に見えない組み合わせに直面すると大きなパフォーマンス低下に悩まされる。
論文 参考訳(メタデータ) (2020-04-15T16:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。