論文の概要: All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization
- arxiv url: http://arxiv.org/abs/2310.00964v1
- Date: Mon, 2 Oct 2023 08:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:03:29.119846
- Title: All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization
- Title(参考訳): All by Myself: コントラスト強化学習最適化による個人的競争行動の学習
- Authors: Pablo Barros, Alessandra Sciutti
- Abstract要約: 競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 57.615269148301515
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In a competitive game scenario, a set of agents have to learn decisions that
maximize their goals and minimize their adversaries' goals at the same time.
Besides dealing with the increased dynamics of the scenarios due to the
opponents' actions, they usually have to understand how to overcome the
opponent's strategies. Most of the common solutions, usually based on continual
learning or centralized multi-agent experiences, however, do not allow the
development of personalized strategies to face individual opponents. In this
paper, we propose a novel model composed of three neural layers that learn a
representation of a competitive game, learn how to map the strategy of specific
opponents, and how to disrupt them. The entire model is trained online, using a
composed loss based on a contrastive optimization, to learn competitive and
multiplayer games. We evaluate our model on a pokemon duel scenario and the
four-player competitive Chef's Hat card game. Our experiments demonstrate that
our model achieves better performance when playing against offline, online, and
competitive-specific models, in particular when playing against the same
opponent multiple times. We also present a discussion on the impact of our
model, in particular on how well it deals with on specific strategy learning
for each of the two scenarios.
- Abstract(参考訳): 競争的なゲームシナリオでは、エージェントのセットは、目標を最大化し、敵のゴールを同時に最小化する決定を学ばなければならない。
相手の行動によるシナリオのダイナミクスの増大に加えて、彼らは通常、相手の戦略を克服する方法を理解する必要がある。
しかし、一般的なソリューションの多くは、通常、継続的な学習や集中型マルチエージェント体験に基づいており、個別に対戦する戦略の開発を許さない。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をマップする方法を学習し,それらを破壊する方法を学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
モデル全体はオンラインでトレーニングされ、コントラスト最適化に基づく合成損失を使用して、競争力とマルチプレイヤーゲームを学ぶ。
ポケモンのデュエルシナリオと4人のプレイヤーが対戦するシェフズハットカードゲームを用いて,本モデルを評価した。
実験により,オフライン,オンライン,競争特有のモデル,特に同じ対戦相手と複数回対戦する場合において,我々のモデルが優れた性能を達成できることを実証した。
また、我々のモデルの影響、特に2つのシナリオごとに特定の戦略学習にどのように対処するかについて、議論する。
関連論文リスト
- Opponent Modeling in Multiplayer Imperfect-Information Games [1.024113475677323]
マルチプレイヤー不完全情報ゲームにおける対戦相手モデルへのアプローチを提案する。
我々は,3人プレイヤのクーンポーカーにおいて,種々の実敵と正確なナッシュ均衡戦略に対する実験を行う。
我々のアルゴリズムは、正確なナッシュ均衡戦略を含む全てのエージェントを著しく上回る。
論文 参考訳(メタデータ) (2022-12-12T16:48:53Z) - Model-Based Opponent Modeling [20.701733377216932]
環境モデルを用いたモデルベース対戦相手モデリング(MBOM)を提案する。
MBOMは、競争環境や協調環境において、既存の手法よりも効果的な適応を実現している。
論文 参考訳(メタデータ) (2021-08-04T04:42:43Z) - Coach-Player Multi-Agent Reinforcement Learning for Dynamic Team
Composition [88.26752130107259]
現実世界のマルチエージェントシステムでは、異なる能力を持つエージェントがチーム全体の目標を変更することなく参加または離脱する可能性がある。
この問題に取り組むコーチ・プレイヤー・フレームワーク「COPA」を提案します。
1)コーチと選手の両方の注意メカニズムを採用し、2)学習を正規化するための変動目標を提案し、3)コーチが選手とのコミュニケーションのタイミングを決定するための適応的なコミュニケーション方法を設計する。
論文 参考訳(メタデータ) (2021-05-18T17:27:37Z) - L2E: Learning to Exploit Your Opponent [66.66334543946672]
本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-18T14:27:59Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Deep Reinforcement Learning for FlipIt Security Game [2.0624765454705654]
本稿では,エージェントが対戦者の異なるクラスに適応し,最適な対ストラテジーを学習する深層学習モデルについて述べる。
FlipItは、プレイヤー、攻撃者、ディフェンダーの双方が共有リソースの所有権を競う2人プレイのセキュリティゲームです。
我々のモデルは、Qラーニングと組み合わせたディープニューラルネットワークであり、リソースの所有時間の最大化のために訓練されている。
論文 参考訳(メタデータ) (2020-02-28T18:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。