論文の概要: State Space Closure: Revisiting Endless Online Level Generation via
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.02951v2
- Date: Fri, 24 Mar 2023 10:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:03:00.233630
- Title: State Space Closure: Revisiting Endless Online Level Generation via
Reinforcement Learning
- Title(参考訳): State Space Closure: 強化学習による無限のオンラインレベル生成の再考
- Authors: Ziqi Wang, Tianye Shu, Jialin Liu
- Abstract要約: 我々は、最近提案されたプロシージャ駆動型コンテンツ生成を強化学習フレームワークを用いて、無限のオンラインレベル生成を再考する。
経験Lが繰り返しパターンを生成する傾向にあるという観察にインスパイアされ、我々は状態空間閉鎖の概念を定式化し、任意の状態が無限水平オンライン生成プロセスに現れる可能性を秘めている。
- 参考スコア(独自算出の注目度): 9.229326416827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we revisit endless online level generation with the recently
proposed experience-driven procedural content generation via reinforcement
learning (EDRL) framework. Inspired by an observation that EDRL tends to
generate recurrent patterns, we formulate a notion of state space closure which
makes any stochastic state appeared possibly in an infinite-horizon online
generation process can be found within a finite-horizon. Through theoretical
analysis, we find that even though state space closure arises a concern about
diversity, it generalises EDRL trained with a finite-horizon to the
infinite-horizon scenario without deterioration of content quality. Moreover,
we verify the quality and the diversity of contents generated by EDRL via
empirical studies, on the widely used Super Mario Bros. benchmark. Experimental
results reveal that the diversity of levels generated by EDRL is limited due to
the state space closure, whereas their quality does not deteriorate in a
horizon which is longer than the one specified in the training. Concluding our
outcomes and analysis, future work on endless online level generation via
reinforcement learning should address the issue of diversity while assuring the
occurrence of state space closure and quality.
- Abstract(参考訳): 本稿では,最近提案されている強化学習(edrl)フレームワークによる経験駆動プロシージャコンテンツ生成を用いて,エンドレスオンラインレベル生成を再考する。
EDRLは繰り返しパターンを生成する傾向にあるという観察から着想を得た状態空間閉包の概念を定式化し、無限水平オンライン生成プロセスにおいて、任意の確率状態が有限水平内で見られるようにした。
理論的解析により、状態空間の閉包が多様性に関する懸念を生じても、コンテンツ品質の劣化を伴わずに有限水平で訓練されたEDRLを無限水平シナリオに一般化する。
さらに,広範に使用されているSuper Mario Bros.ベンチマークを用いて,EDRLが生成するコンテンツの品質と多様性を実証研究により検証した。
実験結果から,EDRLが生成するレベルの多様性は状態空間の閉鎖によって制限されるが,その品質はトレーニングで指定されたものよりも長い水平線では劣化しないことがわかった。
結果と分析をまとめると、強化学習による無限のオンラインレベル生成に関する今後の取り組みは、状態空間の閉鎖と品質の発生を保証しながら多様性の問題に対処すべきである。
関連論文リスト
- Is Behavior Cloning All You Need? Understanding Horizon in Imitation Learning [26.53136644321385]
シミュレーション学習(Imitation Learning, IL)は、実演から学ぶことによって、連続的な意思決定タスクにおいて専門家の行動を模倣することを目的としている。
オンライン行動クローニング(英語版) (BC) は、問題の地平線に好ましくない二次的依存を伴うサンプルの複雑さを引き起こすと考えられている。
累積ペイオフの範囲が制御されるたびに、オフラインILにおいて水平非依存のサンプル複雑性を実現することができることを示す。
論文 参考訳(メタデータ) (2024-07-20T23:31:56Z) - The Generalization Gap in Offline Reinforcement Learning [26.583205544712403]
オフライン学習アルゴリズムは、オンライン学習アルゴリズムよりも、新しい環境でパフォーマンスが悪くなります。
行動クローニングは強力なベースラインであり、最先端のオフラインRLおよびシーケンスモデリングアプローチより優れている。
論文 参考訳(メタデータ) (2023-12-10T03:40:52Z) - Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。
本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。
多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文 参考訳(メタデータ) (2023-10-23T02:27:31Z) - Investigating the Edge of Stability Phenomenon in Reinforcement Learning [20.631461205889487]
強化学習(RL)における安定性現象の端点を探る
教師付き学習との大きな違いにもかかわらず、安定性現象の端は、非政治的な深いRLに存在している。
この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-09T15:46:27Z) - Latent Spectral Regularization for Continual Learning [21.445600749028923]
本研究では,学習者の潜伏空間の幾何学的特徴について検討する。
潜在空間のラプラシアンスペクトルの弱い要求を強制する幾何正則化器を提案する。
論文 参考訳(メタデータ) (2023-01-09T13:56:59Z) - Open-Ended Evolution for Minecraft Building Generation [1.393683063795544]
本稿では,本質的な新規性の定義に従ってMinecraftの建物を進化させるプロシージャコンテンツジェネレータを提案する。
3次元オートエンコーダを用いて潜伏空間における個体の新規性を評価し,探索と変換の段階を交互に検討した。
論文 参考訳(メタデータ) (2022-09-07T12:48:57Z) - Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。
我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。
我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-10-18T17:56:02Z) - Reset-Free Lifelong Learning with Skill-Space Planning [105.00539596788127]
非分離寿命RLのためのアルゴリズムフレームワークであるLifelong Skill Planning (LiSP)を提案する。
LiSPは、本質的な報酬を用いて教師なしの方法でスキルを学び、学習力学モデルを用いて学習スキルを計画する。
我々は,lispが長期計画に成功し,非定常環境や非定型環境においても壊滅的な失敗を回避できるエージェントを学習できることを実証的に示す。
論文 参考訳(メタデータ) (2020-12-07T09:33:02Z) - Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。
この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。
オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文 参考訳(メタデータ) (2020-11-29T14:45:02Z) - OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement
Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。
我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。
オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文 参考訳(メタデータ) (2020-10-26T14:31:08Z) - Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。
離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文 参考訳(メタデータ) (2020-04-21T05:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。