論文の概要: L2E: Learning to Exploit Your Opponent
- arxiv url: http://arxiv.org/abs/2102.09381v1
- Date: Thu, 18 Feb 2021 14:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-19 14:27:14.614310
- Title: L2E: Learning to Exploit Your Opponent
- Title(参考訳): L2E: 相手を爆発させる学習
- Authors: Zhe Wu, Kai Li, Enmin Zhao, Hang Xu, Meng Zhang, Haobo Fu, Bo An,
Junliang Xing
- Abstract要約: 本稿では,暗黙的対向モデリングのための新しい学習フレームワークを提案する。
L2Eは、トレーニング中に異なる相手との対話によって、相手を悪用する能力を取得する。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 66.66334543946672
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Opponent modeling is essential to exploit sub-optimal opponents in strategic
interactions. Most previous works focus on building explicit models to directly
predict the opponents' styles or strategies, which require a large amount of
data to train the model and lack adaptability to unknown opponents. In this
work, we propose a novel Learning to Exploit (L2E) framework for implicit
opponent modeling. L2E acquires the ability to exploit opponents by a few
interactions with different opponents during training, thus can adapt to new
opponents with unknown styles during testing quickly. We propose a novel
opponent strategy generation algorithm that produces effective opponents for
training automatically. We evaluate L2E on two poker games and one grid soccer
game, which are the commonly used benchmarks for opponent modeling.
Comprehensive experimental results indicate that L2E quickly adapts to diverse
styles of unknown opponents.
- Abstract(参考訳): 対向モデリングは、戦略的相互作用における準最適相手を利用するために不可欠である。
これまでのほとんどの作品は、モデルのトレーニングに大量のデータを必要とする相手のスタイルや戦略を直接予測するための明示的なモデルの構築に焦点を当てており、未知の相手への適応性が欠けています。
本研究では,暗黙的相手モデリングのためのLearning to Exploit (L2E)フレームワークを提案する。
L2Eは、トレーニング中に異なる相手とのいくつかの相互作用によって相手を悪用する能力を獲得し、テスト中に未知のスタイルを持つ新しい相手に迅速に適応することができる。
本稿では, 対戦相手を自動的に生成する新しい対戦相手戦略生成アルゴリズムを提案する。
2つのポーカーゲームと1つのグリッドサッカーゲームでL2Eを評価します。
総合的な実験結果から、L2Eは未知の相手の多様なスタイルに迅速に適応することが示された。
関連論文リスト
- Arena Learning: Build Data Flywheel for LLMs Post-training via Simulated Chatbot Arena [126.70522244144088]
AI駆動のアノテーションを使ってアリーナの戦いをシミュレートするために設計された、革新的なオフライン戦略であるArena Learningを紹介します。
Arena Learningは、オフラインシミュレーションとオンラインコンペティションの正確な評価と一貫性を保証する。
ターゲットモデルであるWizardLM-$beta$をトレーニングするためにArena Learningを適用し、大幅なパフォーマンス向上を示します。
論文 参考訳(メタデータ) (2024-07-15T11:26:07Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Know your Enemy: Investigating Monte-Carlo Tree Search with Opponent
Models in Pommerman [14.668309037894586]
強化学習(Reinforcement Learning)と組み合わせて、モンテカルロ木探索(Monte-Carlo Tree Search)はChess、Shogi、Goといったゲームにおいて、人間のグランドマスターよりも優れていることを示した。
汎用マルチプレイヤーゲームからシングルプレイヤーゲームと2プレイヤーゲームに変換する手法について検討する。
論文 参考訳(メタデータ) (2023-05-22T16:39:20Z) - Universal Adversarial Training with Class-Wise Perturbations [78.05383266222285]
敵の訓練は 敵の攻撃を防御するために 最も広く使われる方法です
この作業では、UAPがすべてのクラスを等しく攻撃しないことがわかります。
我々は,対人訓練におけるクラスワイドUAPの利用を提案することで,SOTA UATを改善した。
論文 参考訳(メタデータ) (2021-04-07T09:05:49Z) - Yet Meta Learning Can Adapt Fast, It Can Also Break Easily [53.65787902272109]
数発の分類問題の下で,メタ学習に対する敵対的攻撃について検討した。
様々な環境下でのメタ学習に対する最初の攻撃アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-02T15:03:14Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Enhanced Rolling Horizon Evolution Algorithm with Opponent Model
Learning: Results for the Fighting Game AI Competition [9.75720700239984]
本稿では,RHEA(Rolling Horizon Evolution Algorithm)と対向モデル学習を組み合わせた新しいアルゴリズムを提案する。
2019年の競争で上位5つのボットのうち、モンテカルロツリーサーチ(MCTS)を使用しないボットは、ポリシーグラディエントベースの対戦モデルによるボットのみである。
論文 参考訳(メタデータ) (2020-03-31T04:44:33Z) - Deep Reinforcement Learning for FlipIt Security Game [2.0624765454705654]
本稿では,エージェントが対戦者の異なるクラスに適応し,最適な対ストラテジーを学習する深層学習モデルについて述べる。
FlipItは、プレイヤー、攻撃者、ディフェンダーの双方が共有リソースの所有権を競う2人プレイのセキュリティゲームです。
我々のモデルは、Qラーニングと組み合わせたディープニューラルネットワークであり、リソースの所有時間の最大化のために訓練されている。
論文 参考訳(メタデータ) (2020-02-28T18:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。