論文の概要: Efficient Use of heuristics for accelerating XCS-based Policy Learning
in Markov Games
- arxiv url: http://arxiv.org/abs/2005.12553v1
- Date: Tue, 26 May 2020 07:47:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:20:45.868132
- Title: Efficient Use of heuristics for accelerating XCS-based Policy Learning
in Markov Games
- Title(参考訳): マルコフゲームにおけるXCSに基づく政策学習の促進のためのヒューリスティックスの有効利用
- Authors: Hao Chen, Chang Wang, Jian Huang, Jianxing Gong
- Abstract要約: ゲームでは、学習能力を持つ非定常的な対戦相手と対戦することは、強化学習エージェントにとって依然として困難である。
本稿では,協調学習者と対戦する際の政策学習を高速化するために,粗い論文を効果的に活用することを提案する。
- 参考スコア(独自算出の注目度): 9.038065438586065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Markov games, playing against non-stationary opponents with learning
ability is still challenging for reinforcement learning (RL) agents, because
the opponents can evolve their policies concurrently. This increases the
complexity of the learning task and slows down the learning speed of the RL
agents. This paper proposes efficient use of rough heuristics to speed up
policy learning when playing against concurrent learners. Specifically, we
propose an algorithm that can efficiently learn explainable and generalized
action selection rules by taking advantages of the representation of
quantitative heuristics and an opponent model with an eXtended classifier
system (XCS) in zero-sum Markov games. A neural network is used to model the
opponent from their behaviors and the corresponding policy is inferred for
action selection and rule evolution. In cases of multiple heuristic policies,
we introduce the concept of Pareto optimality for action selection. Besides,
taking advantages of the condition representation and matching mechanism of
XCS, the heuristic policies and the opponent model can provide guidance for
situations with similar feature representation. Furthermore, we introduce an
accuracy-based eligibility trace mechanism to speed up rule evolution, i.e.,
classifiers that can match the historical traces are reinforced according to
their accuracy. We demonstrate the advantages of the proposed algorithm over
several benchmark algorithms in a soccer and a thief-and-hunter scenarios.
- Abstract(参考訳): マルコフゲームでは、学習能力のある非定常の対戦相手と対戦することは、強化学習(rl)エージェントにとって依然として困難である。
これにより、学習タスクの複雑さが増大し、RLエージェントの学習速度が低下する。
本稿では,協調学習者と対戦する際の政策学習を高速化するために,粗いヒューリスティックスの効率的な利用を提案する。
具体的には,ゼロサムマルコフゲームにおいて,量的ヒューリスティック表現と拡張分類システム(xcs)を持つ対戦モデルを利用して,説明可能かつ一般化された行動選択規則を効率的に学習できるアルゴリズムを提案する。
ニューラルネットワークは、相手の行動から相手をモデル化するために使用され、対応するポリシーはアクションの選択とルールの進化のために推論される。
複数のヒューリスティック政策の場合、アクション選択のためのパレート最適性の概念を導入する。
また,XCSの条件表現と一致機構の利点を生かして,類似した特徴表現を持つ状況に対して,ヒューリスティックなポリシーと反対モデルを提供することができる。
さらに、ルールの進化を早めるための正確性に基づく可視性トレース機構、すなわち、過去の痕跡と一致する分類器を精度に応じて強化する。
サッカーにおけるいくつかのベンチマークアルゴリズムと泥棒とハンタのシナリオに対して提案アルゴリズムの利点を示す。
関連論文リスト
- Extend Adversarial Policy Against Neural Machine Translation via Unknown Token [66.40609413186122]
本稿では,トークン置換に基づく既存主流対立政策の文字摂動を導入した「デックスCharポリシー」を提案する。
また、RLのフィードバックを提供する自己教師型マッチングを改善し、敵の訓練に必要な意味的制約に対処する。
論文 参考訳(メタデータ) (2025-01-21T14:43:04Z) - Preference-based opponent shaping in differentiable games [3.373994463906893]
そこで我々は,エージェントの嗜好を協調に向けて形作ることによって,戦略学習プロセスを強化するためのPBOS法を提案する。
様々な異なるゲームにおいてPBOSアルゴリズムの性能を検証する。
論文 参考訳(メタデータ) (2024-12-04T06:49:21Z) - A Minimaximalist Approach to Reinforcement Learning from Human Feedback [49.45285664482369]
人間のフィードバックから強化学習を行うアルゴリズムとして,SPO(Self-Play Preference Optimization)を提案する。
我々のアプローチは、報酬モデルや不安定な敵の訓練を必要としないという点で最小主義である。
我々は,一連の継続的制御タスクにおいて,報酬モデルに基づくアプローチよりもはるかに効率的に学習できることを実証した。
論文 参考訳(メタデータ) (2024-01-08T17:55:02Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Provably Efficient Algorithms for Multi-Objective Competitive RL [54.22598924633369]
エージェントの報酬がベクトルとして表現される多目的強化学習(RL)について検討する。
エージェントが相手と競合する設定では、その平均戻りベクトルから目標セットまでの距離によってその性能を測定する。
統計的および計算学的に効率的なアルゴリズムを開発し、関連するターゲットセットにアプローチする。
論文 参考訳(メタデータ) (2021-02-05T14:26:00Z) - Efficient Competitive Self-Play Policy Optimization [20.023522000925094]
対戦型ゼロサムゲームにおける対戦型自己演奏強化学習のための新しいアルゴリズムフレームワークを提案する。
本手法は,複数のエージェントを同時に訓練し,単純な対戦ルールに基づいて知的に互いに相手として取り合う。
我々は,このアルゴリズムが凸凹ゲームにおいて高い確率で近似平衡に収束することを理論的に証明する。
論文 参考訳(メタデータ) (2020-09-13T21:01:38Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning to Model Opponent Learning [11.61673411387596]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)は、一組の共存エージェントが相互とその環境と相互作用する設定を考える。
これは、通常、収束が定常環境の仮定に依存する値関数ベースのアルゴリズムにとって大きな課題となる。
我々は、モデルポンポント学習(LeMOL)と呼ばれる、対戦者の学習力学をモデル化するための新しいアプローチを開発する。
論文 参考訳(メタデータ) (2020-06-06T17:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。