論文の概要: BRExIt: On Opponent Modelling in Expert Iteration
- arxiv url: http://arxiv.org/abs/2206.00113v1
- Date: Tue, 31 May 2022 20:49:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 10:39:42.554957
- Title: BRExIt: On Opponent Modelling in Expert Iteration
- Title(参考訳): BRExIt: エキスパートイテレーションにおける応答モデリングについて
- Authors: Daniel Hernandez, Hendrik Baier, Michael Kaisers
- Abstract要約: 本稿では,現在最先端の学習アルゴリズムであるExpert Iteration(ExIt)に対立するモデルを組み込むことで,ゲームにおける学習を加速するBest Response Expert Iteration(BRExIt)を提案する。
BRExItは,(1)見習いにおける特徴形成を改善すること,(2)見習いの政策を補助課題として予測する方針,(2)見習いのモデルに向けた計画においてバイアス相手が動き,最良の反応をよりよく近似する見習いのターゲットを生成することを目的としている。
- 参考スコア(独自算出の注目度): 7.088503833248158
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Finding a best response policy is a central objective in game theory and
multi-agent learning, with modern population-based training approaches
employing reinforcement learning algorithms as best-response oracles to improve
play against candidate opponents (typically previously learnt policies). We
propose Best Response Expert Iteration (BRExIt), which accelerates learning in
games by incorporating opponent models into the state-of-the-art learning
algorithm Expert Iteration (ExIt). BRExIt aims to (1) improve feature shaping
in the apprentice, with a policy head predicting opponent policies as an
auxiliary task, and (2) bias opponent moves in planning towards the given or
learnt opponent model, to generate apprentice targets that better approximate a
best response. In an empirical ablation on BRExIt's algorithmic variants in the
game Connect4 against a set of fixed test agents, we provide statistical
evidence that BRExIt learns well-performing policies with greater sample
efficiency than ExIt.
- Abstract(参考訳): 現代の人口ベースのトレーニングアプローチでは、強化学習アルゴリズムを最善の応答神託として採用し、候補者の対戦相手(主に以前に学習した政策)に対する遊びを改善する。
本稿では,最先端学習アルゴリズムエキスパートイテレーション(exit)に敵モデルを組み込むことにより,ゲームにおける学習を加速するベストレスポンスエキスパートイテレーション(brexit)を提案する。
ブレグジットの目的は、(1)対向政策を補助課題として予測する政策責任者、(2)与または学習した対向モデルに向かって計画中のバイアス相手を移動させ、最適な反応を近似する見習い対象を生成することである。
BRExItのゲームConnect4におけるアルゴリズム的変種と固定テストエージェントのセットとの実証的アブレーションにおいて、BRExItがExItよりも優れたサンプル効率で優れた性能のポリシーを学習していることを示す統計的証拠を提供する。
関連論文リスト
- In-Context Exploiter for Extensive-Form Games [38.24471816329584]
In-Context Exploiter (ICE) という新しい手法を導入し、ゲーム内の任意のプレイヤーとして動作し、コンテキスト内学習によって完全に対戦相手を適応的に活用できる単一モデルを訓練する。
我々のICEアルゴリズムは、多様な相手戦略の生成、強化学習アルゴリズムによる対話的履歴データの収集、そしてよく設計されたカリキュラム学習フレームワークにおけるトランスフォーマーベースのエージェントの訓練を含む。
論文 参考訳(メタデータ) (2024-08-10T14:59:09Z) - Toward Optimal LLM Alignments Using Two-Player Games [86.39338084862324]
本稿では,対戦相手と防御エージェントの反復的相互作用を含む2エージェントゲームのレンズによるアライメントについて検討する。
この反復的強化学習最適化がエージェントによって誘導されるゲームに対するナッシュ平衡に収束することを理論的に実証する。
安全シナリオにおける実験結果から、このような競争環境下での学習は、完全に訓練するエージェントだけでなく、敵エージェントと防御エージェントの両方に対する一般化能力の向上したポリシーにつながることが示されている。
論文 参考訳(メタデータ) (2024-06-16T15:24:50Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Learning Diverse Risk Preferences in Population-based Self-play [23.07952140353786]
現在のセルフプレイアルゴリズムはエージェントを最適化し、現在のコピーや歴史的なコピーに対して期待される勝利率を最大化する。
我々は,不確実性に直面したエージェントが多様なリスク嗜好を持つという観点から,多様性を導入する。
本手法は,競技ゲームにおいて,同等あるいは優れた性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-19T06:56:02Z) - Population-based Evaluation in Repeated Rock-Paper-Scissors as a
Benchmark for Multiagent Reinforcement Learning [14.37986882249142]
簡単なゲームRock, Paper, Scissorsの繰り返しプレイに基づくマルチエージェント学習のためのベンチマークを提案する。
平均リターンとエクスプロイラビリティの両方に基づいて,エージェントの品質を測定するための指標について述べる。
論文 参考訳(メタデータ) (2023-03-02T15:06:52Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Efficient Use of heuristics for accelerating XCS-based Policy Learning
in Markov Games [9.038065438586065]
ゲームでは、学習能力を持つ非定常的な対戦相手と対戦することは、強化学習エージェントにとって依然として困難である。
本稿では,協調学習者と対戦する際の政策学習を高速化するために,粗い論文を効果的に活用することを提案する。
論文 参考訳(メタデータ) (2020-05-26T07:47:27Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。