論文の概要: Action Guidance: Getting the Best of Sparse Rewards and Shaped Rewards
for Real-time Strategy Games
- arxiv url: http://arxiv.org/abs/2010.03956v1
- Date: Mon, 5 Oct 2020 03:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:56:37.953032
- Title: Action Guidance: Getting the Best of Sparse Rewards and Shaped Rewards
for Real-time Strategy Games
- Title(参考訳): アクションガイダンス:リアルタイムストラテジーゲームにおけるスリムな報酬と形をした報酬を得る
- Authors: Shengyi Huang, Santiago Onta\~n\'on
- Abstract要約: 報酬の少ないゲームで強化学習を使用するトレーニングエージェントは難しい問題である。
エージェントを訓練して,ゲームにおける真の目的を軽率な報酬で最終的に最適化する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training agents using Reinforcement Learning in games with sparse rewards is
a challenging problem, since large amounts of exploration are required to
retrieve even the first reward. To tackle this problem, a common approach is to
use reward shaping to help exploration. However, an important drawback of
reward shaping is that agents sometimes learn to optimize the shaped reward
instead of the true objective. In this paper, we present a novel technique that
we call action guidance that successfully trains agents to eventually optimize
the true objective in games with sparse rewards while maintaining most of the
sample efficiency that comes with reward shaping. We evaluate our approach in a
simplified real-time strategy (RTS) game simulator called $\mu$RTS.
- Abstract(参考訳): 報酬の少ないゲームで強化学習を使用するトレーニングエージェントは、最初の報酬を得るには大量の探索が必要であるため、難しい問題である。
この問題に対処する一般的なアプローチは、報酬形成を使って探索を支援することである。
しかし、報酬形成の重要な欠点は、エージェントが本当の目的ではなく形をした報酬を最適化することを学ぶことがあることである。
本稿では,報酬形成に伴うサンプル効率のほとんどを維持しつつ,エージェントを訓練し,最終的に報酬の少ないゲームにおいて真の目的を最適化する,アクションガイダンスと呼ばれる新しい手法を提案する。
提案手法を,$\mu$RTSと呼ばれるシンプルなリアルタイム戦略(RTS)ゲームシミュレータで評価する。
関連論文リスト
- Reward Shaping for Improved Learning in Real-time Strategy Game Play [0.3347089492811693]
適切な設計の報酬形成機能により、プレイヤーのパフォーマンスを大幅に向上させることができることを示す。
本研究は,海中キャプチャー・ザ・フラッグゲームのための模擬環境下での報酬形成機能を検証した。
論文 参考訳(メタデータ) (2023-11-27T21:56:18Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Redeeming Intrinsic Rewards via Constrained Optimization [17.203887958936168]
最先端強化学習(RL)アルゴリズムは、通常、探索にランダムサンプリング(例えば$epsilon$-greedy)を用いるが、モンテズマのRevengeのようなハードな探索には失敗する。
探索ボーナス(本質的な報酬または好奇心とも呼ばれる)を使って、エージェントが新しい国家を訪問する動機付けをする以前の作品
このような手法は, 厳密な探索作業において優れた結果をもたらすが, 課題報酬のみを用いて訓練したエージェントと比較して, 内在的な報酬バイアスや過小評価に悩まされる可能性がある。
そこで本研究では,本質的な報酬の重要度を自動的に調整する制約付きポリシ最適化手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T18:49:26Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。
提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文 参考訳(メタデータ) (2021-12-02T00:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。