論文の概要: Human-Level Competitive Pokémon via Scalable Offline Reinforcement Learning with Transformers
- arxiv url: http://arxiv.org/abs/2504.04395v1
- Date: Sun, 06 Apr 2025 07:35:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:10:25.282197
- Title: Human-Level Competitive Pokémon via Scalable Offline Reinforcement Learning with Transformers
- Title(参考訳): 変圧器を用いたスケーラブルオフライン強化学習による人間レベル競合ポケモン
- Authors: Jake Grigsby, Yuqi Xie, Justin Sasek, Steven Zheng, Yuke Zhu,
- Abstract要約: コンペティティブ・ポクモン・シングルズ (Competitive Pok'emon Singles, CPS) は、プレイヤーが不完全な情報に基づいて相手を悪用することを学ぶ人気戦略ゲームである。
観察者の3人称視点から保存したログからエージェントの1人称視点を再構築するパイプラインを開発する。
このデータセットは、入力軌跡のみに基づいて相手に適応するように、大規模なシーケンスモデルをトレーニングするブラックボックスアプローチを可能にする。
- 参考スコア(独自算出の注目度): 24.201490513370523
- License:
- Abstract: Competitive Pok\'emon Singles (CPS) is a popular strategy game where players learn to exploit their opponent based on imperfect information in battles that can last more than one hundred stochastic turns. AI research in CPS has been led by heuristic tree search and online self-play, but the game may also create a platform to study adaptive policies trained offline on large datasets. We develop a pipeline to reconstruct the first-person perspective of an agent from logs saved from the third-person perspective of a spectator, thereby unlocking a dataset of real human battles spanning more than a decade that grows larger every day. This dataset enables a black-box approach where we train large sequence models to adapt to their opponent based solely on their input trajectory while selecting moves without explicit search of any kind. We study a progression from imitation learning to offline RL and offline fine-tuning on self-play data in the hardcore competitive setting of Pok\'emon's four oldest (and most partially observed) game generations. The resulting agents outperform a recent LLM Agent approach and a strong heuristic search engine. While playing anonymously in online battles against humans, our best agents climb to rankings inside the top 10% of active players.
- Abstract(参考訳): コンペティティブ・ポクエモン・シングルズ(Competitive Pok\'emon Singles, CPS)は、プレイヤーが100回以上の確率的なターンを持続できる戦闘において、不完全な情報に基づいて相手を悪用することを学ぶ人気戦略ゲームである。
CPSにおけるAI研究は、ヒューリスティックツリー検索とオンラインセルフプレイによって主導されているが、このゲームは、大規模なデータセット上でオフラインでトレーニングされた適応ポリシーを研究するプラットフォームを構築することもできる。
我々は,エージェントの1人称視点を,観察者の3人称視点から保存したログから再構築するパイプラインを構築し,毎日大きくなる10年以上にわたる実戦のデータセットをアンロックする。
このデータセットは、入力軌跡のみに基づいて大きなシーケンスモデルをトレーニングし、任意の種類の明示的な探索を行なわずに動きを選択するブラックボックスアプローチを可能にする。
我々は,Pok\'emonの4つの最も古い(そして最も部分的に観察された)ゲーム世代において,模倣学習からオフラインRLへの進歩と,セルフプレイデータによるオフライン微調整まで,ハードコア競争環境での研究を行った。
結果として得られたエージェントは、最近のLLMエージェントアプローチと強力なヒューリスティック検索エンジンより優れている。
オンライン対人間の戦いで匿名でプレイしながら、私たちの最高のエージェントは、アクティブプレイヤーのトップ10%のランキングに上がります。
関連論文リスト
- Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Offline Fictitious Self-Play for Competitive Games [34.445740191223614]
Off-FSPは、競争ゲームのための最初のモデルなしオフラインRLアルゴリズムである。
本稿では,FSP(Off-FSP)について紹介する。
論文 参考訳(メタデータ) (2024-02-29T11:36:48Z) - Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。
また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文 参考訳(メタデータ) (2024-01-08T16:15:43Z) - AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning [38.75717733273262]
StarCraft IIは、最も難しいシミュレーションされた強化学習環境の1つである。
Blizzardは、人間のプレーヤーがプレイする何百万ものStarCraft IIゲームの大規模なデータセットをリリースした。
データセット(Blizzardのリリースのサブセット)、マシンラーニングメソッドのAPIを標準化するツール、評価プロトコルを定義します。
論文 参考訳(メタデータ) (2023-08-07T12:21:37Z) - Mastering Asymmetrical Multiplayer Game with Multi-Agent
Asymmetric-Evolution Reinforcement Learning [8.628547849796615]
非対称マルチプレイヤーゲーム (AMP game) は、ゲーム内で複数の種類のエージェントが競合したり協力したりする人気ゲームジャンルである。
非対称な環境下での非バランス性のため、AMPゲームでトップの人間プレイヤーを倒すことのできる強力なエージェントを、典型的なセルフプレイトレーニング手法で訓練することは困難である。
AMPゲームにおいて,複数種類のエージェントを同時に学習できる新しいマルチエージェント強化学習フレームワークである非対称進化学習(AET)を提案する。
論文 参考訳(メタデータ) (2023-04-20T07:14:32Z) - Offline Q-Learning on Diverse Multi-Task Data Both Scales And
Generalizes [100.69714600180895]
オフラインのQ-ラーニングアルゴリズムは、モデルキャパシティでスケールする強力なパフォーマンスを示す。
最大8000万のパラメータネットワークを用いて,40のゲームに対してほぼ人間に近いパフォーマンスで1つのポリシーをトレーニングする。
リターン条件付き教師付きアプローチと比較して、オフラインQラーニングはモデルキャパシティと同様にスケールし、特にデータセットが最適以下である場合にはパフォーマンスが向上する。
論文 参考訳(メタデータ) (2022-11-28T08:56:42Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Counter-Strike Deathmatch with Large-Scale Behavioural Cloning [34.22811814104069]
本稿では,FPSゲーム『Counter-Strike; Global Offensive』を画素入力から再生するAIエージェントについて述べる。
ディープニューラルネットワークであるエージェントは、デスマッチゲームモードでのAI内蔵中難易度のパフォーマンスにマッチし、人間のようなプレイスタイルを採用しています。
論文 参考訳(メタデータ) (2021-04-09T09:12:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。