論文の概要: Using Graph Convolutional Networks and TD($\lambda$) to play the game of
Risk
- arxiv url: http://arxiv.org/abs/2009.06355v1
- Date: Thu, 10 Sep 2020 18:47:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 02:53:45.499760
- Title: Using Graph Convolutional Networks and TD($\lambda$) to play the game of
Risk
- Title(参考訳): Graph Convolutional NetworksとTD($\lambda$)を使ってリスクのゲームをする
- Authors: Jamie Carr
- Abstract要約: リスクは、大きなランダム性と大きなゲームツリーの複雑さを持つ6人のプレイヤーゲームである。
従来AIは、エージェントの決定を決定する高レベルの手作り機能の開発に重点を置いていた。
私は、時間差強化学習を用いてDeep Neural Networkを訓練するリスクエージェントD.A.Dを作成します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk is 6 player game with significant randomness and a large game-tree
complexity which poses a challenge to creating an agent to play the game
effectively. Previous AIs focus on creating high-level handcrafted features
determine agent decision making. In this project, I create D.A.D, A Risk agent
using temporal difference reinforcement learning to train a Deep Neural Network
including a Graph Convolutional Network to evaluate player positions. This is
used in a game-tree to select optimal moves. This allows minimal handcrafting
of knowledge into the AI, assuring input features are as low-level as possible
to allow the network to extract useful and sophisticated features itself, even
with the network starting from a random initialisation. I also tackle the issue
of non-determinism in Risk by introducing a new method of interpreting attack
moves necessary for the search. The result is an AI which wins 35% of the time
versus 5 of best inbuilt AIs in Lux Delux, a Risk variant.
- Abstract(参考訳): リスクとは、ランダム性が著しく、ゲームツリーの複雑さが大きい6人のプレイヤーゲームであり、効果的にゲームをプレイするエージェントを作成することの難題である。
従来AIは、エージェントの決定を決定する高レベルの手作り機能の開発に重点を置いていた。
本稿では、時間差強化学習を用いたリスクエージェントD.A.Dを作成し、グラフ畳み込みネットワークを含むディープニューラルネットワークを訓練してプレイヤーの位置を評価する。
これはゲームツリーで最適な動きを選択するために使用される。
これにより、AIへの知識の最小限の手作りが可能になり、入力機能が可能な限り低レベルであることを保証することで、ネットワークがランダムな初期化から始まるネットワークであっても、有用で洗練された機能自体を抽出することができる。
また,探索に必要な攻撃動作を解釈する新しい手法を導入することで,リスクの非決定性の問題に取り組む。
その結果、リスクの亜種であるLux Deluxの5つに対して、AIは35%の時間で勝利した。
関連論文リスト
- Toward Human-AI Alignment in Large-Scale Multi-Player Games [24.784173202415687]
我々はXboxのBleeding Edge(100K+ゲーム)から広範囲にわたる人間のゲームプレイデータを解析する。
人間のプレイヤーは、戦闘飛行や探索飛行行動において多様性を示す一方で、AIプレイヤーは均一性に向かう傾向にある。
これらの大きな違いは、ヒューマンアラインアプリケーションにおけるAIの解釈可能な評価、設計、統合の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-05T22:55:33Z) - DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。
私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。
AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文 参考訳(メタデータ) (2023-12-05T08:07:32Z) - Explaining How a Neural Network Play the Go Game and Let People Learn [26.192580802652742]
AIモデルは、Goのゲームで人間のプレイヤーを追い越した。
AIモデルは、人間のプレイヤーを超えて、Goゲームに関する新しい知識をエンコードしたと広く信じられている。
論文 参考訳(メタデータ) (2023-10-15T13:57:50Z) - Are AlphaZero-like Agents Robust to Adversarial Perturbations? [73.13944217915089]
AlphaZero(AZ)は、ニューラルネットワークベースのGo AIが人間のパフォーマンスを大きく上回ることを示した。
私たちは、Go AIが驚くほど間違った行動を起こさせる可能性のある、敵対的な状態が存在するかどうか尋ねる。
我々は、Go AIに対する最初の敵攻撃を開発し、探索空間を戦略的に減らし、効率よく敵の状態を探索する。
論文 参考訳(メタデータ) (2022-11-07T18:43:25Z) - Mastering the Game of Stratego with Model-Free Multiagent Reinforcement
Learning [86.37438204416435]
Strategoは、人工知能(AI)がまだマスターしていない数少ない象徴的なボードゲームの一つだ。
ストラテゴにおける決定は、行動と結果の間に明らかな結びつきがなく、多数の個別の行動に対してなされる。
DeepNashは、ストラテゴの既存の最先端AIメソッドを破り、Gravonゲームプラットフォームで年間(2022年)と最高3位を達成した。
論文 参考訳(メタデータ) (2022-06-30T15:53:19Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Model-Free Online Learning in Unknown Sequential Decision Making
Problems and Games [114.90723492840499]
大規模な2人プレイのゼロサム情報ゲームでは、反事実後悔最小化(cfr)の現代的な拡張がnash均衡を計算するための実用的な技術である。
私たちは、戦略空間がエージェントに知られていないオンライン学習設定を形式化します。
エージェントが逆の環境に直面しても、その設定に高い確率で$O(T3/4)$後悔を達成する効率的なアルゴリズムを提供します。
論文 参考訳(メタデータ) (2021-03-08T04:03:24Z) - AI solutions for drafting in Magic: the Gathering [0.0]
我々は,Drafttsim.comから収集した10,000以上の擬似匿名化人ドラフトのデータセットを提示する。
本稿では,プリミティブな起草エージェント,エキスパートによる複雑なエージェント,ネイブベイズエージェント,ディープニューラルネットワークエージェントの4つの多様な戦略を提案する。
この作業は、ヒューマンライクな起草エージェントの作成における次のステップを特定し、次世代の起草ボットのベンチマークとして機能する。
論文 参考訳(メタデータ) (2020-09-01T18:44:10Z) - Playing Catan with Cross-dimensional Neural Network [0.0]
ドメイン知識を必要とせず、強化学習(RL:Reinforcement Learning)によってAIエージェントを構築するのは難しい。
本稿では,情報ソースと多種多様な出力の混合を扱うために,多次元ニューラルネットワークを導入し,そのネットワークがカタンのRLを劇的に改善することを示す。
また、初めてRLエージェントがjsettlerを上回り、最も優れたエージェントが利用できることを示す。
論文 参考訳(メタデータ) (2020-08-17T04:09:29Z) - Learning to Play Sequential Games versus Unknown Opponents [93.8672371143881]
学習者が最初にプレーするゲームと、選択した行動に反応する相手との連続的なゲームについて考察する。
対戦相手の対戦相手列と対戦する際,学習者に対して新しいアルゴリズムを提案する。
我々の結果には、相手の反応の正則性に依存するアルゴリズムの後悔の保証が含まれている。
論文 参考訳(メタデータ) (2020-07-10T09:33:05Z) - Testing match-3 video games with Deep Reinforcement Learning [0.0]
そこで本研究では,Match-3 ゲームにおいて,Deep Reinforcement Learning を用いてテストプロセスを自動化する可能性について検討する。
我々は,レッドビットゲームズが開発したMatch-3ゲームであるJelly Juiceゲーム上で,この種のネットワークをテストする。
論文 参考訳(メタデータ) (2020-06-30T12:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。