論文の概要: Integrating Planning, Execution and Monitoring in the presence of Open
World Novelties: Case Study of an Open World Monopoly Solver
- arxiv url: http://arxiv.org/abs/2107.04303v1
- Date: Fri, 9 Jul 2021 08:26:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-12 13:50:51.675982
- Title: Integrating Planning, Execution and Monitoring in the presence of Open
World Novelties: Case Study of an Open World Monopoly Solver
- Title(参考訳): オープンワールド新規企業における計画・実行・監視の統合:オープンワールドモノポリーソルバーを事例として
- Authors: Sriram Gopalakrishnan, Utkarsh Soni, Tung Thai, Panagiotis
Lymperopoulos, Matthias Scheutz, Subbarao Kambhampati
- Abstract要約: モノポリーはDARPA-SAILON計画で選ばれたテストベッドの1つであった。
我々は、完全な計画を立てるエージェントを開発し、ゲームが進化するにつれて、オンラインのポリシーに適応する。
- 参考スコア(独自算出の注目度): 21.170242411005955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The game of monopoly is an adversarial multi-agent domain where there is no
fixed goal other than to be the last player solvent, There are useful subgoals
like monopolizing sets of properties, and developing them. There is also a lot
of randomness from dice rolls, card-draws, and adversaries' strategies. This
unpredictability is made worse when unknown novelties are added during
gameplay. Given these challenges, Monopoly was one of the test beds chosen for
the DARPA-SAILON program which aims to create agents that can detect and
accommodate novelties. To handle the game complexities, we developed an agent
that eschews complete plans, and adapts it's policy online as the game evolves.
In the most recent independent evaluation in the SAILON program, our agent was
the best performing agent on most measures. We herein present our approach and
results.
- Abstract(参考訳): ゲーム・オブ・モノポリー(英: game of monopoly)は、最後のプレイヤー溶媒となること以外の固定的な目標がなく、プロパティの集合の独占やそれらの発展といった有用なサブゴールが存在する、敵対的マルチエージェントドメインである。
dice rolls、card-draws、adversariesの戦略からも多くのランダム性がある。
この予測不可能性は、ゲームプレイ中に未知のノベルティを追加すると悪化する。
これらの課題を考えると、モノポリーはDARPA-SAILONプログラムで選ばれたテストベッドの1つであり、新規性を検出して適応できるエージェントを作ることを目的としている。
ゲームの複雑さに対処するため,我々は,ゲームが進化するにつれてオンラインの方針に適応するエージェントを開発した。
SAILONプログラムの最近の独立性評価では,ほとんどの指標において,我々のエージェントが最も優れたエージェントであった。
ここでは、我々のアプローチと結果を示す。
関連論文リスト
- Multi-agent Multi-armed Bandits with Stochastic Sharable Arm Capacities [69.34646544774161]
我々は、各アームへのリクエストの到着とプレイヤーへのリクエストの割り当てポリシーをキャプチャするマルチプレイヤーマルチアーム・バンディット(MAB)モデルの新しいバリエーションを定式化する。
課題は、プレイヤーが最適な腕引きプロファイルに従って腕を選択するように分散学習アルゴリズムを設計する方法である。
我々は,Mラウンドのみの最適腕引きプロファイルにおいて,プレイヤーがコンセンサスに達することを保証した反復分散アルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-08-20T13:57:00Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - Preference-conditioned Pixel-based AI Agent For Game Testing [1.5059676044537105]
環境とのインタラクションによって学習するゲームテストAIエージェントは、これらの課題を軽減する可能性がある。
本稿では,ユーザの好みに応じて設定された環境を探索しながら,主に画素ベースの状態観測に依存するエージェント設計を提案する。
実AAAゲームにおける多くの側面に類似した複雑なオープンワールド環境において、調査対象とテスト実行品質に対して、我々のエージェントは、最先端の画素ベースのゲームテストエージェントよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-08-18T04:19:36Z) - TiZero: Mastering Multi-Agent Football with Curriculum Learning and
Self-Play [19.98100026335148]
TiZeroは、スクラッチから学習する自己進化型マルチエージェントシステムである。
これは、Google Research Footballの環境において、これまでのシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-02-15T08:19:18Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Generating Diverse and Competitive Play-Styles for Strategy Games [58.896302717975445]
ターン型戦略ゲーム(Tribes)のためのプログレッシブアンプランによるPortfolio Monte Carlo Tree Searchを提案する。
品質分散アルゴリズム(MAP-Elites)を使用して異なるプレイスタイルを実現し、競争レベルを維持しながらパラメータ化する方法を示します。
その結果,このアルゴリズムは,トレーニングに用いるレベルを超えて,幅広いゲームレベルにおいても,これらの目標を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-17T20:33:24Z) - Playing Against the Board: Rolling Horizon Evolutionary Algorithms
Against Pandemic [3.223284371460913]
本稿では,短期的リスク軽減と長期的勝利戦略のバランスをとる必要があるため,コラボレーションボードゲームが人工知能に異なる課題をもたらすことを主張する。
本稿では,協調型ボードゲームにおけるパンデミックの例を示し,このゲームに展開する進化的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-28T09:22:10Z) - Collaborative Agent Gameplay in the Pandemic Board Game [3.223284371460913]
Pandemicは、すべてのプレイヤーがゲームの進行中に発生する出来事によって引き起こされる課題を克服するために調整する模範的な共同ボードゲームです。
本稿では,すべてのプレイヤーの行動を制御し,この高度に進化した環境において勝つ確率と負けるリスクをバランスさせる人工エージェントを提案する。
提案アルゴリズムは,様々な難易度を持つ異なるゲームにおいて,より一貫した勝利戦略を見出すことができることを示す。
論文 参考訳(メタデータ) (2021-03-21T13:18:20Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z) - Learning to Play Imperfect-Information Games by Imitating an Oracle
Planner [77.67437357688316]
我々は、同時移動と大規模なステートアクションスペースでマルチプレイヤーの不完全な情報ゲームをプレイする学習を検討します。
我々のアプローチはモデルに基づく計画に基づいている。
我々は,Clash Royale と Pommerman のゲームにおいて,プランナーが効率的なプレイ戦略を発見することができることを示す。
論文 参考訳(メタデータ) (2020-12-22T17:29:57Z) - The Design Of "Stratega": A General Strategy Games Framework [62.997667081978825]
Strategaはターンベースおよびリアルタイム戦略ゲームを作成するためのフレームワークである。
このフレームワークは、統計的フォワードプランニング(SFP)エージェントに焦点を当てて構築されている。
我々は,このフレームワークとそのエージェントの開発が,戦略ゲームにおける複雑な意思決定プロセスの理解に役立つことを願っている。
論文 参考訳(メタデータ) (2020-09-11T20:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。