論文の概要: Reward Shaping for Improved Learning in Real-time Strategy Game Play
- arxiv url: http://arxiv.org/abs/2311.16339v1
- Date: Mon, 27 Nov 2023 21:56:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 21:04:48.164741
- Title: Reward Shaping for Improved Learning in Real-time Strategy Game Play
- Title(参考訳): リアルタイム戦略ゲームにおける学習改善のための報酬シェーピング
- Authors: John Kliem and Prithviraj Dasgupta
- Abstract要約: 適切な設計の報酬形成機能により、プレイヤーのパフォーマンスを大幅に向上させることができることを示す。
本研究は,海中キャプチャー・ザ・フラッグゲームのための模擬環境下での報酬形成機能を検証した。
- 参考スコア(独自算出の注目度): 0.3347089492811693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the effect of reward shaping in improving the performance of
reinforcement learning in the context of the real-time strategy,
capture-the-flag game. The game is characterized by sparse rewards that are
associated with infrequently occurring events such as grabbing or capturing the
flag, or tagging the opposing player. We show that appropriately designed
reward shaping functions applied to different game events can significantly
improve the player's performance and training times of the player's learning
algorithm. We have validated our reward shaping functions within a simulated
environment for playing a marine capture-the-flag game between two players. Our
experimental results demonstrate that reward shaping can be used as an
effective means to understand the importance of different sub-tasks during
game-play towards winning the game, to encode a secondary objective functions
such as energy efficiency into a player's game-playing behavior, and, to
improve learning generalizable policies that can perform well against different
skill levels of the opponent.
- Abstract(参考訳): 本研究では, 実時間戦略, キャプチャ・ザ・フラッグゲームにおける強化学習の性能向上における報酬形成の効果を検討する。
このゲームの特徴は、フラッグをつかんだり、捕獲したり、相手プレイヤーにタグを付けたり、しばしば発生する出来事に関係しているスパース報酬である。
異なるゲームイベントに適用した報奨シェーピング機能を適切に設計することで、プレイヤーの学習アルゴリズムの性能とトレーニング時間を大幅に改善できることを示す。
本研究は,2人の選手間の海中捕獲・フラッグゲームを行うためのシミュレーション環境内での報酬形成機能を検証する。
実験により,ゲームプレイ中に異なるサブタスクの重要性を理解し,エネルギ効率などの二次目的機能をプレイヤーのゲームプレイ行動に符号化し,対戦相手の異なるスキルレベルに対して良好に機能する汎用ポリシーを学習するための効果的な方法として,報酬形成が有効であることを示す。
関連論文リスト
- Enhancing Two-Player Performance Through Single-Player Knowledge Transfer: An Empirical Study on Atari 2600 Games [1.03590082373586]
本研究では,Atari 2600 RAMを入力状態とした10種類のAtari 2600環境における提案手法について検討した。
我々は,スクラッチから2人プレイヤ設定のトレーニングよりも,シングルプレイヤートレーニングプロセスからトランスファーラーニングを使用することの利点について論じる。
論文 参考訳(メタデータ) (2024-10-22T02:57:44Z) - Pixel to policy: DQN Encoders for within & cross-game reinforcement
learning [0.0]
強化学習は様々なタスクや環境に適用できる。
多くの環境は類似した構造を持ち、他のタスクでのRL性能を改善するために利用することができる。
この研究は、スクラッチからトレーニングされたRLモデルのパフォーマンスと、トランスファーラーニングの異なるアプローチの比較も行っている。
論文 参考訳(メタデータ) (2023-08-01T06:29:33Z) - Lucy-SKG: Learning to Play Rocket League Efficiently Using Deep
Reinforcement Learning [0.0]
本稿では,Rocket Leagueをサンプル効率でプレイする方法を学習した強化学習ベースのモデルであるLucy-SKGを紹介する。
コントリビューションには、報酬分析と可視化ライブラリの開発、新しいパラメータ化可能な報酬形状関数、補助的ニューラルネットワークなどがある。
論文 参考訳(メタデータ) (2023-05-25T07:33:17Z) - Understanding why shooters shoot -- An AI-powered engine for basketball
performance profiling [70.54015529131325]
バスケットボールは、プレイスタイルやゲームダイナミクスなど、多くの変数によって規定されている。
パフォーマンスプロファイルが様々なプレイスタイルを反映できることは重要です。
プレイヤのパフォーマンスプロファイルをタイムリーに可視化するツールを提案する。
論文 参考訳(メタデータ) (2023-03-17T01:13:18Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Action Guidance: Getting the Best of Sparse Rewards and Shaped Rewards
for Real-time Strategy Games [0.0]
報酬の少ないゲームで強化学習を使用するトレーニングエージェントは難しい問題である。
エージェントを訓練して,ゲームにおける真の目的を軽率な報酬で最終的に最適化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-05T03:43:06Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。