論文の概要: Bootstrapped Q-learning with Context Relevant Observation Pruning to
Generalize in Text-based Games
- arxiv url: http://arxiv.org/abs/2009.11896v1
- Date: Thu, 24 Sep 2020 18:38:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 03:55:20.985422
- Title: Bootstrapped Q-learning with Context Relevant Observation Pruning to
Generalize in Text-based Games
- Title(参考訳): テキストベースゲームにおけるコンテキスト関連観察処理を用いたブートストラップ型Q-ラーニング
- Authors: Subhajit Chaudhury, Daiki Kimura, Kartik Talamadupula, Michiaki
Tatsubori, Asim Munawar and Ryuki Tachibana
- Abstract要約: テキストベースゲーム(TBG)を解くための強化学習(RL)手法が、目に見えないゲームにおいて一般化に失敗することが多いことを示す。
我々は、一般化を改善するために、観測テキストにおける無関係なトークン除去のためのコンテキスト関連エピソード状態トラニケーション(CREST)を提案する。
- 参考スコア(独自算出の注目度): 17.099698901619856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that Reinforcement Learning (RL) methods for solving Text-Based Games
(TBGs) often fail to generalize on unseen games, especially in small data
regimes. To address this issue, we propose Context Relevant Episodic State
Truncation (CREST) for irrelevant token removal in observation text for
improved generalization. Our method first trains a base model using Q-learning,
which typically overfits the training games. The base model's action token
distribution is used to perform observation pruning that removes irrelevant
tokens. A second bootstrapped model is then retrained on the pruned observation
text. Our bootstrapped agent shows improved generalization in solving unseen
TextWorld games, using 10x-20x fewer training games compared to previous
state-of-the-art methods despite requiring less number of training episodes.
- Abstract(参考訳): テキストベースゲーム(TBG)を解くための強化学習(Reinforcement Learning, RL)手法は、特に小さなデータ構造において、目に見えないゲームに一般化できないことが多い。
この問題に対処するために,監視文におけるトークンの無関係除去のための文脈関連エピソディック状態切断 (crest) を提案する。
本手法は,まずq-learningを用いてベースモデルをトレーニングする。
ベースモデルのアクショントークン分布は、無関係なトークンを除去する観察プルーニングを実行するために使用される。
次に、第2のブートストラップモデルが、刈り取られた観察テキストで再訓練される。
ブートストラップエージェントは,未発見のテキストワールドゲームに対する一般化が改善され,前回より10倍から20倍少ないトレーニングゲームが得られた。
関連論文リスト
- Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free
Ensembles of DNNs [9.010643838773477]
本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。
オーバーフィットは検証精度を低下させることなく発生しうることを示し,従来よりも一般的である可能性が示唆された。
我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に追加のコストを要さず,大幅な改善を実現する。
論文 参考訳(メタデータ) (2023-10-17T09:22:22Z) - Learning Symbolic Rules over Abstract Meaning Representations for
Textual Reinforcement Learning [63.148199057487226]
本稿では,汎用的な意味一般化とルール誘導システムを組み合わせて,解釈可能なルールをポリシーとして学習するモジュール型 NEuroSymbolic Textual Agent (NESTA) を提案する。
実験の結果,NESTA法は,未確認テストゲームや少ないトレーニングインタラクションから学習することで,深層強化学習技術よりも優れることがわかった。
論文 参考訳(メタデータ) (2023-07-05T23:21:05Z) - Learning to Play Text-based Adventure Games with Maximum Entropy
Reinforcement Learning [4.698846136465861]
我々はテキストベースの環境にソフト・アクター・クリティック(SAC)アルゴリズムを適用する。
報酬形成技術は、エージェントがポリシーをより早く学習し、より高いスコアを得るのに役立つことを示す。
論文 参考訳(メタデータ) (2023-02-21T15:16:12Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Contextual Games: Multi-Agent Learning with Side Information [57.76996806603094]
各ラウンドでコンテキスト情報によって駆動されるコンテキストゲームの新しいクラスを定式化する。
カーネルベースの規則性仮定を用いて、異なるコンテキストとゲーム結果の相関関係をモデル化する。
本研究では,個々のプレイヤーの文脈的後悔を最小限に抑えるために,そのような相関を利用した新しいオンライン(メタ)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T18:37:37Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Zero-Shot Learning of Text Adventure Games with Sentence-Level Semantics [22.535033105490594]
本稿では,ニューラルネットワークアーキテクチャと新しいSiamese Q-value関数を組み込んだ,アメニブルな深層Q-ラーニングのための新しいモデルを提案する。
ゼロショットテキストベースのアドベンチャーゲーム学習の文脈でモデルを評価する。
本モデルでは, ベースラインの収束性能点に到達し, イテレーションの15%しか必要とせず, ベースラインよりも15%高い収束性能点に到達し, 微調整の必要なく, 未知の非関連ゲームをプレイすることができる。
論文 参考訳(メタデータ) (2020-04-06T20:24:33Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z) - From Poincar\'e Recurrence to Convergence in Imperfect Information
Games: Finding Equilibrium via Regularization [49.368421783733815]
モノトーンゲームにおいて,報酬の適応が強い収束保証を与えることを示す。
また、この報酬適応手法を用いて、Nash平衡に正確に収束するアルゴリズムを構築する方法を示す。
論文 参考訳(メタデータ) (2020-02-19T21:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。