論文の概要: Learning to Play Text-based Adventure Games with Maximum Entropy
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2302.10720v2
- Date: Tue, 27 Jun 2023 09:25:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 17:27:10.989596
- Title: Learning to Play Text-based Adventure Games with Maximum Entropy
Reinforcement Learning
- Title(参考訳): 最大エントロピー強化学習によるテキストベースのアドベンチャーゲームの学習
- Authors: Weichen Li, Rati Devidze, Sophie Fellenz
- Abstract要約: 我々はテキストベースの環境にソフト・アクター・クリティック(SAC)アルゴリズムを適用する。
報酬形成技術は、エージェントがポリシーをより早く学習し、より高いスコアを得るのに役立つことを示す。
- 参考スコア(独自算出の注目度): 4.698846136465861
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-based games are a popular testbed for language-based reinforcement
learning (RL). In previous work, deep Q-learning is commonly used as the
learning agent. Q-learning algorithms are challenging to apply to complex
real-world domains due to, for example, their instability in training.
Therefore, in this paper, we adapt the soft-actor-critic (SAC) algorithm to the
text-based environment. To deal with sparse extrinsic rewards from the
environment, we combine it with a potential-based reward shaping technique to
provide more informative (dense) reward signals to the RL agent. We apply our
method to play difficult text-based games. The SAC method achieves higher
scores than the Q-learning methods on many games with only half the number of
training steps. This shows that it is well-suited for text-based games.
Moreover, we show that the reward shaping technique helps the agent to learn
the policy faster and achieve higher scores. In particular, we consider a
dynamically learned value function as a potential function for shaping the
learner's original sparse reward signals.
- Abstract(参考訳): テキストベースのゲームは、言語ベースの強化学習(RL)で人気のあるテストベッドである。
従来の研究では、ディープラーニングは学習エージェントとして一般的に使用される。
q-learningアルゴリズムは、例えばトレーニングにおける不安定性のため、複雑な実世界ドメインに適用するのが困難である。
そこで本稿では,sac(soft-actor-critic)アルゴリズムをテキストベース環境に適用する。
環境からの疎外報酬に対処するため,RLエージェントにより情報的(高密度)報酬信号を提供するために,潜在的報酬形成技術と組み合わせた。
本手法は,難解なテキストベースのゲームに応用する。
SAC法は、トレーニングステップの半数しか持たない多くのゲームにおいて、Q-Learning法よりも高いスコアを達成する。
これはテキストベースのゲームに適していることを示している。
さらに,報酬形成技術は,エージェントが政策をより早く学習し,より高いスコアを得るのに役立つことを示す。
特に,動的学習値関数は,学習者の本来のスパース報酬信号を形成する潜在関数である。
関連論文リスト
- Autoverse: An Evolvable Game Language for Learning Robust Embodied Agents [2.624282086797512]
シングルプレイヤ2Dグリッドベースのゲームのための,進化可能なドメイン固有言語であるAutoverseを紹介する。
オープンエンデッドラーニング(OEL)アルゴリズムのスケーラブルなトレーニンググラウンドとしての利用を実証する。
論文 参考訳(メタデータ) (2024-07-05T02:18:02Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning [27.69559938165733]
実践とホーミングのスキルは、人間の学習の基本的な要素だが、人工エージェントは、それらを実行するために特別に訓練されることはめったにない。
複雑な環境下での強化学習(RL)エージェントの訓練に、どのようにスキルを組み込むことができるかを検討する。
本実験により, 複雑な問題に対するエージェントの性能向上に寄与することが示唆された。
論文 参考訳(メタデータ) (2022-07-23T19:23:29Z) - Learning to Shape Rewards using a Game of Switching Controls [21.456451774045465]
2つのエージェント間の新しいゲームでシェーピング報酬関数を構築する自動RSフレームワークを紹介します。
我々は,既存のRLアルゴリズムを簡単に適用可能なフレームワークが,タスクに適した整形逆戻り関数を構築することを学ぶことを理論的に証明した。
我々は、Cartpoleの最先端のRSアルゴリズムと挑戦的なコンソールゲームGravitar、Solaris、Super Marioに対する私たちの方法の優れたパフォーマンスを実証します。
論文 参考訳(メタデータ) (2021-03-16T15:56:57Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Learning Dynamic Belief Graphs to Generalize on Text-Based Games [55.59741414135887]
テキストベースのゲームをプレイするには、自然言語処理とシーケンシャルな意思決定のスキルが必要である。
本研究では,原文からエンドツーエンドに学習したグラフ構造化表現を用いて,エージェントがテキストベースのゲームでどのように計画・一般化できるかを検討する。
論文 参考訳(メタデータ) (2020-02-21T04:38:37Z) - Exploration Based Language Learning for Text-Based Games [72.30525050367216]
本研究は,テキストベースのコンピュータゲームにおいて,最先端の性能を発揮できる探索・模倣学習型エージェントを提案する。
テキストベースのコンピュータゲームは、自然言語でプレイヤーの世界を記述し、プレイヤーがテキストを使ってゲームと対話することを期待する。
これらのゲームは、言語理解、問題解決、および人工エージェントによる言語生成のためのテストベッドと見なすことができるため、興味がある。
論文 参考訳(メタデータ) (2020-01-24T03:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。