論文の概要: PokeRL: Reinforcement Learning for Pokemon Red
- arxiv url: http://arxiv.org/abs/2604.10812v1
- Date: Sun, 12 Apr 2026 20:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.229097
- Title: PokeRL: Reinforcement Learning for Pokemon Red
- Title(参考訳): PokeRL: ポケモンレッドの強化学習
- Authors: Dheeraj Mudireddy, Sai Patibandla,
- Abstract要約: 我々は,ポケモンレッドの早期ゲームタスクを完了させるために,深層強化学習エージェントを訓練するモジュールシステムであるPokeRLを提案する。
主なコントリビューションは、マップマスキングによるPyBoyエミュレータの周囲のループ認識環境ラッパー、マルチレイヤのアンチループとアンチスパム機構、階層的な報酬設計である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pokemon Red is a long-horizon JRPG with sparse rewards, partial observability, and quirky control mechanics that make it a challenging benchmark for reinforcement learning. While recent work has shown that PPO agents can clear the first two gyms using heavy reward shaping and engineered observations, training remains brittle in practice, with agents often degenerating into action loops, menu spam, or unproductive wandering. In this paper, we present PokeRL, a modular system that trains deep reinforcement learning agents to complete early game tasks in Pokemon Red, including exiting the player's house, exploring Pallet Town to reach tall grass, and winning the first rival battle. Our main contributions are a loop-aware environment wrapper around the PyBoy emulator with map masking, a multi-layer anti-loop and anti-spam mechanism, and a dense hierarchical reward design. We argue that practical systems like PokeRL, which explicitly model failure modes such as loops and spam, are a necessary intermediate step between toy benchmarks and full Pokemon League champion agents. Code is available at https://github.com/reddheeraj/PokemonRL
- Abstract(参考訳): Pokemon Redは、細かな報酬、部分的な可観測性、微妙な制御機構を備えた長期的JRPGであり、強化学習の難しいベンチマークとなっている。
最近の研究によると、PPOエージェントは重い報酬形成とエンジニアリングされた観察によって最初の2つのジムをクリアできるが、実際にはトレーニングは不安定であり、エージェントはアクションループやメニュースパム、非生産的なさまよりへと退避することが多い。
本稿では,PokeRLを提案する。PokeRLは,Pokemon Redにおける深層強化学習エージェントを訓練し,プレイヤーの家を出ること,パレットタウンを探索して背の高い草に到達すること,そして最初のライバル戦に勝つことを含む早期ゲームタスクを完了させるモジュールシステムである。
主なコントリビューションは、マップマスキングによるPyBoyエミュレータの周囲のループ認識環境ラッパー、マルチレイヤのアンチループとアンチスパム機構、階層的な報酬設計である。
ループやスパムなどの障害モードを明示的にモデル化するPokeRLのような実用システムは、おもちゃのベンチマークとポケモンリーグのチャンピオンエージェントの間の中間的なステップである、と我々は主張する。
コードはhttps://github.com/reddheeraj/PokemonRLで公開されている。
関連論文リスト
- The PokeAgent Challenge: Competitive and Long-Context Learning at Scale [45.224407977351824]
PokeAgent Challengeは意思決定研究のための大規模なベンチマークだ。
Pokemonのマルチエージェントバトルシステムと拡張型ロールプレイングゲーム(RPG)環境上に構築されている。
我々のNeurIPS 2025コンペティションは、私たちのリソースの品質と、Pokemonに対する研究コミュニティの関心の両方を検証します。
論文 参考訳(メタデータ) (2026-03-16T17:25:42Z) - Game-TARS: Pretrained Foundation Models for Scalable Generalist Multimodal Game Agents [56.25101378553328]
本稿では,汎用ゲームエージェントであるGame-TARSについて紹介する。
Game-TARSは500B以上のトークンで事前トレーニングされており、様々な軌跡とマルチモーダルデータがある。
実験により、Game-TARSは、オープンワールドMinecraftタスクにおける以前のソータモデルの約2倍の成功率を達成することが示された。
論文 参考訳(メタデータ) (2025-10-27T17:43:51Z) - Game-RL: Synthesizing Multimodal Verifiable Game Data to Boost VLMs' General Reasoning [89.93384726755106]
視覚言語強化学習(RL)は主に狭い領域に焦点を当てている。
ビデオゲームは本質的に、検証が容易なリッチなビジュアル要素とメカニクスを提供します。
ビデオゲームにおけるマルチモーダルかつ検証可能な報酬を完全に活用するために,Game-RLを提案する。
論文 参考訳(メタデータ) (2025-05-20T03:47:44Z) - Pokemon Red via Reinforcement Learning [3.548348926427221]
古典的なゲームボーイJRPGであるPok'emon Redは、エージェントのテストベッドとして重要な課題を提示している。
本稿では,Cerrulean Cityの完成までのゲームの初期セグメントを完了させるベースラインエージェントを実証する,単純化された環境と深層強化学習の方法論を紹介する。
我々の実験には、報酬形成の脆弱性を明らかにする様々な改善が含まれており、エージェントは特定の報酬信号を利用する。
論文 参考訳(メタデータ) (2025-02-27T09:42:23Z) - PokeLLMon: A Human-Parity Agent for Pokemon Battles with Large Language Models [7.653580388741887]
戦術格闘ゲームにおいて,人間の対人性能を実現する最初のLDM型エージェントであるPokeLLMonを紹介する。
オンライン対人戦は、PokeLLMonの人間的な戦闘戦略とジャスト・イン・タイムの意思決定を実証している。
論文 参考訳(メタデータ) (2024-02-02T03:22:12Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。