論文の概要: Efficient exploration of zero-sum stochastic games
- arxiv url: http://arxiv.org/abs/2002.10524v1
- Date: Mon, 24 Feb 2020 20:30:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 03:46:21.950992
- Title: Efficient exploration of zero-sum stochastic games
- Title(参考訳): ゼロサム確率ゲームの効率的な探索
- Authors: Carlos Martin, Tuomas Sandholm
- Abstract要約: ゲームプレイを通じて,ゲームの記述を明示せず,託宣のみにアクセス可能な,重要で一般的なゲーム解決環境について検討する。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
私たちのモチベーションは、クエリされた戦略プロファイルの支払いを評価するのにコストがかかる状況において、利用可能性の低い戦略を迅速に学習することにあります。
- 参考スコア(独自算出の注目度): 83.28949556413717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate the increasingly important and common game-solving setting
where we do not have an explicit description of the game but only oracle access
to it through gameplay, such as in financial or military simulations and
computer games. During a limited-duration learning phase, the algorithm can
control the actions of both players in order to try to learn the game and how
to play it well. After that, the algorithm has to produce a strategy that has
low exploitability. Our motivation is to quickly learn strategies that have low
exploitability in situations where evaluating the payoffs of a queried strategy
profile is costly. For the stochastic game setting, we propose using the
distribution of state-action value functions induced by a belief distribution
over possible environments. We compare the performance of various exploration
strategies for this task, including generalizations of Thompson sampling and
Bayes-UCB to this new setting. These two consistently outperform other
strategies.
- Abstract(参考訳): 我々は、ゲームを明確に記述していないが、金融や軍事シミュレーションやコンピュータゲームのようなゲームプレイを通して、oracleだけがそれにアクセスするという、ますます重要で一般的なゲーム解決設定を調査している。
限られたデュレーション学習フェーズにおいて、アルゴリズムは両方のプレイヤーのアクションを制御し、ゲームを学習し、それをうまくプレイする方法を学習する。
その後、アルゴリズムは、悪用性が低い戦略を生成する必要がある。
私たちのモチベーションは、クエリされた戦略プロファイルの報酬を評価するのにコストがかかる状況において、悪用可能性の低い戦略を素早く学ぶことです。
確率ゲームの設定には,可能環境上の信念分布によって引き起こされる状態行動値関数の分布を用いることを提案する。
我々は,トンプソンサンプリングとベイズucbの一般化を含む,この課題に対する様々な探索戦略の性能をこの新しい設定と比較した。
これら2つの戦略は一貫して他の戦略を上回っている。
関連論文リスト
- Variational Methods for Computing Non-Local Quantum Strategies [1.95414377613382]
非ローカルゲームでは、2人の非コミュニケーションプレーヤーが、ゲームのルールに違反しない戦略を持っていることを審判に納得させるために協力する。
提案アルゴリズムは,グラフカラーゲームに最適な量子戦略を実装した近距離回路を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:17:18Z) - ApproxED: Approximate exploitability descent via learned best responses [61.17702187957206]
連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。
本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-20T23:55:30Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。
敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:53:48Z) - On the Impossibility of Convergence of Mixed Strategies with No Regret
Learning [10.515544361834241]
最適無後悔学習戦略の一般クラスから得られる混合戦略の収束特性について検討する。
各ステップに設定された情報を相手の実演の実証平均とする戦略のクラスを考察する。
論文 参考訳(メタデータ) (2020-12-03T18:02:40Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Optimal strategies in the Fighting Fantasy gaming system: influencing
stochastic dynamics by gambling with limited resource [0.0]
Fighting Fantasyは、世界で人気のあるレクリエーションファンタジーゲームシステムである。
各ラウンドでは、限られた資源(Luck')がギャンブルに費やされ、勝利の利益を増幅したり、損失から赤字を軽減したりすることができる。
我々は,システムに対するベルマン方程式の解法と,ゲーム中の任意の状態に対する最適な戦略を特定するために,後方帰納法を用いる。
論文 参考訳(メタデータ) (2020-02-24T11:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。