論文の概要: Playing Pokémon Red via Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.19920v1
- Date: Thu, 27 Feb 2025 09:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:56:40.234008
- Title: Playing Pokémon Red via Deep Reinforcement Learning
- Title(参考訳): 深層強化学習によるポケモンレッドのプレイ
- Authors: Marco Pleines, Daniel Addis, David Rubinstein, Frank Zimmer, Mike Preuss, Peter Whidden,
- Abstract要約: 古典的なゲームボーイJRPGであるPok'emon Redは、エージェントのテストベッドとして重要な課題を提示している。
本稿では,Cerrulean Cityの完成までのゲームの初期セグメントを完了させるベースラインエージェントを実証する,単純化された環境と深層強化学習の方法論を紹介する。
我々の実験には、報酬形成の脆弱性を明らかにする様々な改善が含まれており、エージェントは特定の報酬信号を利用する。
- 参考スコア(独自算出の注目度): 3.548348926427221
- License:
- Abstract: Pok\'emon Red, a classic Game Boy JRPG, presents significant challenges as a testbed for agents, including multi-tasking, long horizons of tens of thousands of steps, hard exploration, and a vast array of potential policies. We introduce a simplistic environment and a Deep Reinforcement Learning (DRL) training methodology, demonstrating a baseline agent that completes an initial segment of the game up to completing Cerulean City. Our experiments include various ablations that reveal vulnerabilities in reward shaping, where agents exploit specific reward signals. We also discuss limitations and argue that games like Pok\'emon hold strong potential for future research on Large Language Model agents, hierarchical training algorithms, and advanced exploration methods. Source Code: https://github.com/MarcoMeter/neroRL/tree/poke_red
- Abstract(参考訳): 古典的なゲームボーイのJRPGであるPok\'emon Redは、マルチタスク、数万ステップの長い地平線、ハード探索、そして様々な潜在的なポリシーなど、エージェントのためのテストベッドとして重要な課題を提示している。
本稿では,Cerrulean Cityの完成までのゲームの初期セグメントを完了させるベースラインエージェントを実証する,簡易な環境と深層強化学習(DRL)訓練手法を紹介する。
我々の実験には、報酬形成の脆弱性を明らかにする様々な改善が含まれており、エージェントは特定の報酬信号を利用する。
我々はまた制限について議論し、Pok\'emonのようなゲームが将来の大規模言語モデルエージェント、階層的トレーニングアルゴリズム、先進的な探索手法の研究に強い可能性を秘めていると主張している。
ソースコード:https://github.com/MarcoMeter/neroRL/tree/poke_red
関連論文リスト
- Can VLMs Play Action Role-Playing Games? Take Black Myth Wukong as a Study Case [20.14197375326218]
本研究の目的は,複雑なアクションゲーム環境にマルチモーダルエージェントを適用するための新たな洞察と方向性を提供することである。
我々は、既存の視覚言語モデルの能力境界を探求する研究プラットフォームとして、ARPG、Black Myth: Wukong'を選択した。
記録されたゲームプレイビデオとマウスとキーボードアクションを含む操作ログを含む人間の操作データセットをリリースする。
論文 参考訳(メタデータ) (2024-09-19T16:30:25Z) - SPRING: Studying the Paper and Reasoning to Play Games [102.5587155284795]
我々は,ゲーム本来の学術論文を読み取るための新しいアプローチ,SPRINGを提案し,大言語モデル(LLM)を通してゲームの説明とプレイの知識を利用する。
実験では,クラフトオープンワールド環境の設定下で,異なる形態のプロンプトによって引き起こされる文脈内「推論」の品質について検討した。
我々の実験は、LLMが一貫したチェーン・オブ・シークレットによって誘導されると、洗練された高レベル軌道の完成に大きな可能性があることを示唆している。
論文 参考訳(メタデータ) (2023-05-24T18:14:35Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Shielding Atari Games with Bounded Prescience [8.874011540975715]
アタリゲームにおけるDRLエージェントの安全性を分析し、確保するための最初の正確な方法を提示します。
まず、30ゲームのための「安全な行動」を特徴づける43のプロパティのセットを与えます。
第2に,エージェントとゲームによって引き起こされるすべてのトレースを探索する手法を開発した。
第3に,境界状態探索と遮蔽を組み合わせた対策を提案する。
論文 参考訳(メタデータ) (2021-01-20T14:22:04Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - How to Avoid Being Eaten by a Grue: Structured Exploration Strategies
for Textual Worlds [16.626095390308304]
質問に答えることで世界の知識グラフを構築することを学習するエージェントであるQ*BERTを紹介する。
MC!Q*BERTは知識グラフに基づく本質的なモチベーションを用いてボトルネックを検出するエージェントである。
本研究は,9つのテキストゲームにおいて,我々の手法が現状よりも優れていることを示すアブレーション研究と結果を提示する。
論文 参考訳(メタデータ) (2020-06-12T18:24:06Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。