論文の概要: What can we Learn Even From the Weakest? Learning Sketches for
Programmatic Strategies
- arxiv url: http://arxiv.org/abs/2203.11912v1
- Date: Tue, 22 Mar 2022 17:33:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-23 13:59:07.000504
- Title: What can we Learn Even From the Weakest? Learning Sketches for
Programmatic Strategies
- Title(参考訳): 一番弱い者からでも何が学べる?
プログラム戦略のためのスケッチの学習
- Authors: Leandro C. Medeiros, David S. Aleixo, and Levi H. S. Lelis
- Abstract要約: 行動クローニングは,プログラム戦略の効果的なスケッチの学習に有効であることを示す。
弱いプレイヤーの行動のクローン化によって学んだスケッチでさえ、プログラム戦略の合成に役立てることができることを示す。
- 参考スコア(独自算出の注目度): 13.980232286609136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we show that behavioral cloning can be used to learn effective
sketches of programmatic strategies. We show that even the sketches learned by
cloning the behavior of weak players can help the synthesis of programmatic
strategies. This is because even weak players can provide helpful information,
e.g., that a player must choose an action in their turn of the game. If
behavioral cloning is not employed, the synthesizer needs to learn even the
most basic information by playing the game, which can be computationally
expensive. We demonstrate empirically the advantages of our sketch-learning
approach with simulated annealing and UCT synthesizers. We evaluate our
synthesizers in the games of Can't Stop and MicroRTS. The sketch-based
synthesizers are able to learn stronger programmatic strategies than their
original counterparts. Our synthesizers generate strategies of Can't Stop that
defeat a traditional programmatic strategy for the game. They also synthesize
strategies that defeat the best performing method from the latest MicroRTS
competition.
- Abstract(参考訳): 本稿では,プログラム戦略の効果的なスケッチを学習するために,行動クローニングが利用できることを示す。
弱いプレイヤーの行動のクローン化によって学んだスケッチでさえ、プログラム戦略の合成に役立つことを示す。
これは、弱いプレイヤーでさえ、例えばプレイヤーがゲームのターンでアクションを選択するなど、有益な情報を提供することができるためである。
動作的クローンが採用されない場合、シンセサイザーは、計算コストのかかるゲームをすることで、最も基本的な情報さえも学習する必要がある。
シミュレーションアニーリングとUTTシンセサイザーを用いたスケッチ学習手法の利点を実証的に実証した。
我々は,Can't StopとMicroRTSのゲームにおけるシンセサイザーの評価を行った。
スケッチベースのシンセサイザーは、オリジナルのものよりも強力なプログラム戦略を学ぶことができる。
我々のシンセサイザーは、ゲームの伝統的なプログラム戦略を破るCan't Stopの戦略を生成する。
彼らはまた、最新のMicroRTSコンペティションから最高のパフォーマンスメソッドを倒す戦略を合成する。
関連論文リスト
- Reinforcement Learning Jazz Improvisation: When Music Meets Game Theory [0.24578723416255752]
ジャズ即興化のための数学ゲーム理論モデルを提案する。
強化学習を用いて、多様な即興戦略とその組み合わせのパフォーマンスを探索する。
私たちの仕事はジャズを超える有望な応用の基礎を築いた。
論文 参考訳(メタデータ) (2024-02-25T16:46:15Z) - Variational Methods for Computing Non-Local Quantum Strategies [1.95414377613382]
非ローカルゲームでは、2人の非コミュニケーションプレーヤーが、ゲームのルールに違反しない戦略を持っていることを審判に納得させるために協力する。
提案アルゴリズムは,グラフカラーゲームに最適な量子戦略を実装した近距離回路を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:17:18Z) - All by Myself: Learning Individualized Competitive Behaviour with a
Contrastive Reinforcement Learning optimization [57.615269148301515]
競争ゲームのシナリオでは、エージェントのセットは、彼らの目標を最大化し、敵の目標を同時に最小化する決定を学習する必要があります。
本稿では,競争ゲームの表現を学習し,特定の相手の戦略をどうマップするか,それらを破壊するかを学習する3つのニューラルネットワーク層からなる新しいモデルを提案する。
我々の実験は、オフライン、オンライン、競争特化モデル、特に同じ対戦相手と複数回対戦した場合に、我々のモデルがより良いパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-10-02T08:11:07Z) - Learning of Generalizable and Interpretable Knowledge in Grid-Based
Reinforcement Learning Environments [5.217870815854702]
本稿では,強化学習ポリシーを模倣するプログラム合成を提案する。
我々は,グリッド環境における概念学習に最先端のプログラム合成システムDreamCoderを適用した。
論文 参考訳(メタデータ) (2023-09-07T11:46:57Z) - Choosing Well Your Opponents: How to Guide the Synthesis of Programmatic
Strategies [19.143548378141062]
Local Learner (2L) はゼロサムゲームにおけるプログラム戦略の探索をガイドする参照戦略のセットを提供するアルゴリズムである。
提案手法の利点を実証的に示すとともに,3つのゲームで戦略を合成するための局所探索アルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-07-10T20:31:23Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - Efficient exploration of zero-sum stochastic games [83.28949556413717]
ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
論文 参考訳(メタデータ) (2020-02-24T20:30:38Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。