論文の概要: Optimizing Mario Adventures in a Constrained Environment
- arxiv url: http://arxiv.org/abs/2312.14963v1
- Date: Thu, 14 Dec 2023 08:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-31 03:12:17.595427
- Title: Optimizing Mario Adventures in a Constrained Environment
- Title(参考訳): 制約環境下でのマリオアドベンチャーの最適化
- Authors: Sanyam Jain
- Abstract要約: 我々は遺伝的アルゴリズム(MarioGA)とニューロエボリューション(MarioNE)技術を用いてスーパーマリオブラザーズをプレイすることを学ぶ。
我々は、SMBエージェントを定式化し、回収されたコインの合計値(逆)を最大化し、移動した全距離(逆)を最大化する。
我々は、フィットネスプロットをプロットし、世界1の異なるレベルを仕上げる能力と、訓練されたモデルのドメイン適応(トランスファーラーニング)を5倍の精度で比較分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This project proposes and compares a new way to optimise Super Mario Bros.
(SMB) environment where the control is in hand of two approaches, namely,
Genetic Algorithm (MarioGA) and NeuroEvolution (MarioNE). Not only we learn
playing SMB using these techniques, but also optimise it with constrains of
collection of coins and finishing levels. Firstly, we formalise the SMB agent
to maximize the total value of collected coins (reward) and maximising the
total distance traveled (reward) in order to finish the level faster (time
penalty) for both the algorithms. Secondly, we study MarioGA and its evaluation
function (fitness criteria) including its representation methods, crossover
used, mutation operator formalism, selection method used, MarioGA loop, and few
other parameters. Thirdly, MarioNE is applied on SMB where a population of ANNs
with random weights is generated, and these networks control Marios actions in
the game. Fourth, SMB is further constrained to complete the task within the
specified time, rebirths (deaths) within the limit, and performs actions or
moves within the maximum allowed moves, while seeking to maximize the total
coin value collected. This ensures an efficient way of finishing SMB levels.
Finally, we provide a fivefold comparative analysis by plotting fitness plots,
ability to finish different levels of world 1, and domain adaptation (transfer
learning) of the trained models.
- Abstract(参考訳): このプロジェクトでは,遺伝的アルゴリズム(MarioGA)とニューロエボリューション(MarioNE)という2つのアプローチで制御を行うスーパーマリオブラザーズ(SMB)環境を最適化する新しい手法を提案し,比較する。
これらのテクニックを使ってSMBをプレイすることを学ぶだけでなく、コインのコレクションやフィニッシュレベルの制約でそれを最適化します。
まず,SMBエージェントを定式化し,収集したコインの合計値(逆)を最大化し,移動距離(逆)を最大化し,両アルゴリズムのレベルを高速化する(時間的ペナルティ)。
次に,その表現法,クロスオーバー法,突然変異演算子形式化法,選択法,マリオガループ法,その他のパラメータを含むマリオガとその評価関数(適合度基準)について検討した。
第3に、ランダムウェイトを持つANNの集団が生成されるSMBにMarioNEを適用し、これらのネットワークがマリオのアクションを制御する。
第4に、SMBは、指定された時間内にタスクを完了させ、その制限内で再生(死)し、収集されたコインの合計値の最大化を図りながら、最大許容動作内でアクションや移動を行う。
これにより、SMBレベルを効率的に仕上げることができる。
最後に、フィットネスプロットのプロット、世界1の異なるレベルを仕上げる能力、トレーニングされたモデルのドメイン適応(トランスファー学習)による5倍の比較分析を提供する。
関連論文リスト
- Provably Efficient Generalized Lagrangian Policy Optimization for Safe
Multi-Agent Reinforcement Learning [105.7510838453122]
制約付きマルコフゲームを用いたオンライン安全なマルチエージェント強化学習について検討する。
我々は,このラグランジアン問題を解くための高信頼強化学習アルゴリズムを開発した。
提案アルゴリズムは,オンラインミラー降下によるミニマックス決定主元変数と,投影勾配ステップによる双対変数を更新する。
論文 参考訳(メタデータ) (2023-05-31T22:09:24Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - RAMario: Experimental Approach to Reptile Algorithm -- Reinforcement
Learning for Mario [0.0]
スーパーマリオブラザーズのライブラリとPythonの重みを使ってReptileアルゴリズムを実装し、ニューラルネットワークモデルを作成する。
複数のタスクとエピソードを使用してモデルをトレーニングし、現在のニューラルネットワークモデルを使用してアクションを選択し、環境下でアクションを取り、Reptileアルゴリズムを使用してモデルを更新する。
我々の結果は、Reptileアルゴリズムが、他の2つのアルゴリズムと同等かそれ以上の性能を持つ、ビデオゲームAIにおける数ショット学習に有望なアプローチを提供することを示した。
論文 参考訳(メタデータ) (2023-05-16T17:54:14Z) - MarioGPT: Open-Ended Text2Level Generation through Large Language Models [20.264940262622282]
手続き型コンテンツ生成(PCG)は、複雑で多様な環境を自動生成する技術である。
ここでは、タイルベースのゲームレベルを生成するために訓練された微調整GPT2モデルであるMarioGPTを紹介する。
論文 参考訳(メタデータ) (2023-02-12T19:12:24Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Improving Deep Localized Level Analysis: How Game Logs Can Help [0.9645196221785693]
プレイヤー体験を予測するために,深層畳み込みニューラルネットワーク(CNN)を用いて予測に影響を及ぼす新しい改良を提案する。
我々はスーパーマリオブラザーズ(Infinite Mario Bros.)とスーパーマリオブラザーズ(Super Mario Bros.: The Lost Levels (Gwario))に基づいて、我々のアプローチをテストする。
論文 参考訳(メタデータ) (2022-12-07T00:05:16Z) - Off-Beat Multi-Agent Reinforcement Learning [62.833358249873704]
オフビート動作が一般的環境におけるモデルフリーマルチエージェント強化学習(MARL)について検討した。
モデルレスMARLアルゴリズムのための新しいエピソードメモリLeGEMを提案する。
我々は,Stag-Hunter Game,Quarry Game,Afforestation Game,StarCraft IIマイクロマネジメントタスクなど,オフビートアクションを伴うさまざまなマルチエージェントシナリオ上でLeGEMを評価する。
論文 参考訳(メタデータ) (2022-05-27T02:21:04Z) - Illuminating Mario Scenes in the Latent Space of a Generative
Adversarial Network [11.055580854275474]
設計者は,我々のシステムにゲームプレイ対策を規定し,様々なレベルのメカニックで高品質な(プレイ可能な)レベルを抽出する方法を示す。
オンラインユーザスタディでは、自動生成されるレベルの異なるメカニズムが、認識される困難さと外観の主観的評価にどのように影響するかが示されている。
論文 参考訳(メタデータ) (2020-07-11T03:38:06Z) - Weighted QMIX: Expanding Monotonic Value Function Factorisation for Deep
Multi-Agent Reinforcement Learning [66.94149388181343]
本稿では,MARLのためのQ$-learningアルゴリズムの新バージョンを提案する。
Q*$をアクセスしても、最適なポリシーを回復できることを示します。
また,プレデレータープリとマルチエージェントのStarCraftベンチマークタスクの性能向上を実証した。
論文 参考訳(メタデータ) (2020-06-18T18:34:50Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z) - A Game Theoretic Framework for Model Based Reinforcement Learning [39.45066100705418]
モデルベース強化学習(MBRL)は、最近、サンプル効率と非政治データを組み込む能力により、大きな関心を集めている。
我々は,MBRLをゲームとして活用する新たなフレームワークを開発する。(1)学習モデルの下で報酬を最大化しようとするポリシープレイヤー,(2)ポリシープレイヤーが収集した実世界のデータに適合しようとするモデルプレイヤー。
当社のフレームワークは一貫性があり,従来から重要であった勾配の明確な基盤を提供します。
論文 参考訳(メタデータ) (2020-04-16T17:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。