Fugu-MT 論文翻訳(概要): State Space Closure: Revisiting Endless Online Level Generation via Reinforcement Learning

論文の概要: State Space Closure: Revisiting Endless Online Level Generation via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2212.02951v1
Date: Tue, 6 Dec 2022 13:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 16:42:02.692364
Title: State Space Closure: Revisiting Endless Online Level Generation via Reinforcement Learning
Title（参考訳）: State Space Closure: 強化学習による無限のオンラインレベル生成の再考
Authors: Ziqi Wang, Tianye Shu, Jialin Liu
Abstract要約: 我々は、最近提案された強化学習(EDRL)フレームワークによる経験駆動型コンテンツ生成で、無限のオンラインレベル生成を再考する。この現象にインスパイアされた状態空間閉包の概念は、無限水平オンライン生成過程に現れる任意の状態が有限の地平線で見つかることを意味する。
参考スコア（独自算出の注目度）: 9.229326416827
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper we revisit endless online level generation with the recently proposed experience-driven procedural content generation via reinforcement learning (EDRL) framework, from an observation that EDRL tends to generate recurrent patterns. Inspired by this phenomenon, we formulate a notion of state space closure, which means that any state that may appear in an infinite-horizon online generation process can be found in a finite horizon. Through theoretical analysis we find that though state space closure arises a concern about diversity, it makes the EDRL trained on a finite-horizon generalised to the infinite-horizon scenario without deterioration of content quality. Moreover, we verify the quality and diversity of contents generated by EDRL via empirical studies on the widely used Super Mario Bros. benchmark. Experimental results reveal that the current EDRL approach's ability of generating diverse game levels is limited due to the state space closure, whereas it does not suffer from reward deterioration given a horizon longer than the one of training. Concluding our findings and analysis, we argue that future works in generating online diverse and high-quality contents via EDRL should address the issue of diversity on the premise of state space closure which ensures the quality.
Abstract（参考訳）: 本稿では,EDRLが繰り返しパターンを生成する傾向にあるという観察から,最近提案されたEDRLフレームワークを用いて,無限のオンラインレベル生成を再考する。この現象にインスパイアされた状態空間閉包の概念は、無限水平オンライン生成過程に現れる任意の状態が有限の地平線で見つかることを意味する。理論解析により、状態空間の閉包は多様性に関する懸念を生じさせるが、EDRLはコンテンツ品質の劣化を伴わずに無限水平シナリオに一般化される。さらに,EDRLが生成するコンテンツの品質と多様性を,広く使用されているSuper Mario Bros.ベンチマークの実証的研究により検証した。実験の結果,現在のedrlアプローチでは,ゲームレベルを多様に生成する能力は状態空間の閉鎖によって制限されているが,トレーニングの地平線よりも長い場合の報酬劣化に苦しむことはない。 EDRLによるオンラインの多様かつ高品質なコンテンツ作成における今後の課題は、状態空間閉鎖の前提における多様性の問題に対処すべきである、と我々は論じている。

関連論文リスト

Temporal Distance-aware Transition Augmentation for Offline Model-based Reinforcement Learning [2.992602379681373]
時間距離認識遷移拡張(Temp data)と呼ばれる新しいオフライン強化学習フレームワークを導入する。長期の振舞いをモデル化するために、Temp dataは状態空間の軌跡と遷移レベルの両方から時間的距離をキャプチャする潜在抽象化を学習する。実験の結果,Temp DATAは従来のオフラインMBRL法よりも優れており,D4RL AntMaze, FrankaKitchen, CALVIN, ピクセルベースのFrankaKitchen上での拡散に基づく軌道増進と目標条件RLの整合性や超越性を実現していることがわかった。
論文参考訳（メタデータ） (2025-05-19T14:11:14Z)
Offline Reinforcement Learning with Discrete Diffusion Skills [13.983510604527574]
複雑な長期的タスクに取り組むための時間的抽象化として、オフライン強化学習(RL)にスキルが導入された。オフラインのRLのスキルは、主に連続的な潜伏空間内でモデル化されているが、離散的なスキル空間の可能性はほとんど探索されていない。本稿では、最先端のトランスフォーマーベースのエンコーダと拡散型デコーダによってサポートされたオフラインRLタスクのためのコンパクトな離散スキル空間を提案する。
論文参考訳（メタデータ） (2025-03-26T03:04:42Z)
Is Behavior Cloning All You Need? Understanding Horizon in Imitation Learning [26.53136644321385]
シミュレーション学習(Imitation Learning, IL)は、実演から学ぶことによって、連続的な意思決定タスクにおいて専門家の行動を模倣することを目的としている。オンライン行動クローニング(英語版) (BC) は、問題の地平線に好ましくない二次的依存を伴うサンプルの複雑さを引き起こすと考えられている。累積ペイオフの範囲が制御されるたびに、オフラインILにおいて水平非依存のサンプル複雑性を実現することができることを示す。
論文参考訳（メタデータ） (2024-07-20T23:31:56Z)
The Generalization Gap in Offline Reinforcement Learning [26.583205544712403]
オフライン学習アルゴリズムは、オンライン学習アルゴリズムよりも、新しい環境でパフォーマンスが悪くなります。行動クローニングは強力なベースラインであり、最先端のオフラインRLおよびシーケンスモデリングアプローチより優れている。
論文参考訳（メタデータ） (2023-12-10T03:40:52Z)
Diversify Question Generation with Retrieval-Augmented Style Transfer [68.00794669873196]
本稿では,検索型スタイル転送のためのフレームワーク RAST を提案する。本研究の目的は,多様なテンプレートのスタイルを質問生成に活用することである。多様性報酬と一貫性報酬の重み付けを最大化する新しい強化学習(RL)ベースのアプローチを開発する。
論文参考訳（メタデータ） (2023-10-23T02:27:31Z)
Investigating the Edge of Stability Phenomenon in Reinforcement Learning [20.631461205889487]
強化学習(RL)における安定性現象の端点を探る教師付き学習との大きな違いにもかかわらず、安定性現象の端は、非政治的な深いRLに存在している。この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
論文参考訳（メタデータ） (2023-07-09T15:46:27Z)
Latent Spectral Regularization for Continual Learning [21.445600749028923]
本研究では,学習者の潜伏空間の幾何学的特徴について検討する。潜在空間のラプラシアンスペクトルの弱い要求を強制する幾何正則化器を提案する。
論文参考訳（メタデータ） (2023-01-09T13:56:59Z)
Open-Ended Evolution for Minecraft Building Generation [1.393683063795544]
本稿では,本質的な新規性の定義に従ってMinecraftの建物を進化させるプロシージャコンテンツジェネレータを提案する。 3次元オートエンコーダを用いて潜伏空間における個体の新規性を評価し,探索と変換の段階を交互に検討した。
論文参考訳（メタデータ） (2022-09-07T12:48:57Z)
Provable Hierarchy-Based Meta-Reinforcement Learning [50.17896588738377]
HRLをメタRL設定で解析し、下流タスクで使用するメタトレーニング中に学習者が潜在階層構造を学習する。我々は、この自然階層の標本効率の回復を保証し、抽出可能な楽観主義に基づくアルゴリズムとともに「多様性条件」を提供する。我々の境界は、時間的・状態的・行動的抽象化などのHRL文献に共通する概念を取り入れており、我々の設定と分析が実際にHRLの重要な特徴を捉えていることを示唆している。
論文参考訳（メタデータ） (2021-10-18T17:56:02Z)
Reset-Free Lifelong Learning with Skill-Space Planning [105.00539596788127]
非分離寿命RLのためのアルゴリズムフレームワークであるLifelong Skill Planning (LiSP)を提案する。 LiSPは、本質的な報酬を用いて教師なしの方法でスキルを学び、学習力学モデルを用いて学習スキルを計画する。我々は,lispが長期計画に成功し,非定常環境や非定型環境においても壊滅的な失敗を回避できるエージェントを学習できることを実証的に示す。
論文参考訳（メタデータ） (2020-12-07T09:33:02Z)
Offline Reinforcement Learning Hands-On [60.36729294485601]
オフラインのRLは、大規模なデータセットを、環境とのオンラインインタラクションなしで強力な意思決定エンジンにすることを目的としている。この研究は、実践者の視点からこれらの取り組みを反映することを目的としている。オフラインRLの成功には,データの多様性と高リターン例が不可欠であることを実験的に検証する。
論文参考訳（メタデータ） (2020-11-29T14:45:02Z)
OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning [107.6943868812716]
エージェントは大量のオフライン体験データにアクセスでき、オンライン環境へのアクセスは極めて限られている。我々の主な洞察は、様々な行動からなるオフラインデータを提示すると、このデータを活用する効果的な方法は、反復的かつ時間的に拡張された原始的行動の連続的な空間を抽出することである。オフラインポリシ最適化のメリットに加えて,このようなオフラインプリミティブ学習の実施も,数発の模倣学習の改善に有効であることを示す。
論文参考訳（メタデータ） (2020-10-26T14:31:08Z)
Discrete Variational Attention Models for Language Generation [51.88612022940496]
本稿では,言語における離散性に起因する注意機構のカテゴリー分布を考慮した離散的変動注意モデルを提案する。離散性の特質により,提案手法の訓練は後部崩壊に支障を来さない。
論文参考訳（メタデータ） (2020-04-21T05:49:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。