論文の概要: Playing Catan with Cross-dimensional Neural Network
- arxiv url: http://arxiv.org/abs/2008.07079v1
- Date: Mon, 17 Aug 2020 04:09:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 02:50:23.584773
- Title: Playing Catan with Cross-dimensional Neural Network
- Title(参考訳): ニューラルネットワークを用いたカタンの演奏
- Authors: Quentin Gendre, Tomoyuki Kaneko
- Abstract要約: ドメイン知識を必要とせず、強化学習(RL:Reinforcement Learning)によってAIエージェントを構築するのは難しい。
本稿では,情報ソースと多種多様な出力の混合を扱うために,多次元ニューラルネットワークを導入し,そのネットワークがカタンのRLを劇的に改善することを示す。
また、初めてRLエージェントがjsettlerを上回り、最も優れたエージェントが利用できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Catan is a strategic board game having interesting properties, including
multi-player, imperfect information, stochastic, complex state space structure
(hexagonal board where each vertex, edge and face has its own features, cards
for each player, etc), and a large action space (including negotiation).
Therefore, it is challenging to build AI agents by Reinforcement Learning (RL
for short), without domain knowledge nor heuristics. In this paper, we
introduce cross-dimensional neural networks to handle a mixture of information
sources and a wide variety of outputs, and empirically demonstrate that the
network dramatically improves RL in Catan. We also show that, for the first
time, a RL agent can outperform jsettler, the best heuristic agent available.
- Abstract(参考訳): catanは、マルチプレイヤー、不完全な情報、確率的、複雑な状態空間構造(各頂点、辺、面が独自の特徴、各プレイヤーのカードなどを持つヘキサゴナルボード)、大きなアクション空間(交渉を含む)など、興味深い特性を持つ戦略的ボードゲームである。
したがって、強化学習(RL:Reinforcement Learning)によるAIエージェントの構築は、ドメイン知識やヒューリスティックスなしでは困難である。
本稿では,情報ソースと多種多様な出力の混在を扱うために,クロス次元ニューラルネットワークを導入し,そのネットワークがカタンのrlを劇的に改善することを示す。
また、rlエージェントが初めて、利用可能な最も優れたヒューリスティックエージェントであるjsettlerを上回ることができることも示しています。
関連論文リスト
- Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining [49.730897226510095]
我々は,60億のトークンデータを持つアタリゲーム上で事前訓練されたオフラインモデルベースRLエージェントであるJOWA: Jointly-Reinforceed World-Action Modelを紹介する。
われわれの最大のエージェントは、1億5000万のパラメータを持ち、10%のサブサンプルオフラインデータだけで事前トレーニングされたゲーム上での人間レベルのパフォーマンス78.9%で、既存の最先端の大規模なオフラインRLベースラインを31.6%上回っている。
論文 参考訳(メタデータ) (2024-10-01T10:25:03Z) - Hokoff: Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks [59.50879251101105]
我々は、オフラインのRLとオフラインのMARLをカバーする、事前コンパイルされたデータセットの包括的なセットであるHokoffを提案する。
このデータは、Multiplayer Online Battle Arena(MOBA)ゲームとして認知されているHonor of Kingsに由来する。
また,ゲーム固有の階層的アクション空間に適した,新しいベースラインアルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-08-20T05:38:50Z) - Centralized control for multi-agent RL in a complex Real-Time-Strategy
game [0.0]
マルチエージェント強化学習(MARL)は、共有環境で共存する複数の学習エージェントの行動を研究する。
MARLはシングルエージェントRLよりも難しい。
このプロジェクトは、Lux AI v2 KaggleコンペティションにRLを適用したエンドツーエンドエクスペリエンスを提供する。
論文 参考訳(メタデータ) (2023-04-25T17:19:05Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Deep Policy Networks for NPC Behaviors that Adapt to Changing Design
Parameters in Roguelike Games [137.86426963572214]
例えばRoguelikesのようなターンベースの戦略ゲームは、Deep Reinforcement Learning(DRL)にユニークな課題を提示する。
複雑なカテゴリ状態空間をより適切に処理し、設計決定によって強制的に再訓練する必要性を緩和する2つのネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-12-07T08:47:25Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - Using Graph Convolutional Networks and TD($\lambda$) to play the game of
Risk [0.0]
リスクは、大きなランダム性と大きなゲームツリーの複雑さを持つ6人のプレイヤーゲームである。
従来AIは、エージェントの決定を決定する高レベルの手作り機能の開発に重点を置いていた。
私は、時間差強化学習を用いてDeep Neural Networkを訓練するリスクエージェントD.A.Dを作成します。
論文 参考訳(メタデータ) (2020-09-10T18:47:08Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Learning to Play No-Press Diplomacy with Best Response Policy Iteration [31.367850729299665]
7人プレイのボードゲームであるDiplomacyに深層強化学習手法を適用した。
我々は, エージェントが従来の状態を確実に上回り, ゲーム理論平衡解析により, 新しいプロセスが一貫した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-08T14:33:31Z) - Deep Reinforcement Learning for FlipIt Security Game [2.0624765454705654]
本稿では,エージェントが対戦者の異なるクラスに適応し,最適な対ストラテジーを学習する深層学習モデルについて述べる。
FlipItは、プレイヤー、攻撃者、ディフェンダーの双方が共有リソースの所有権を競う2人プレイのセキュリティゲームです。
我々のモデルは、Qラーニングと組み合わせたディープニューラルネットワークであり、リソースの所有時間の最大化のために訓練されている。
論文 参考訳(メタデータ) (2020-02-28T18:26:24Z) - Signaling in Bayesian Network Congestion Games: the Subtle Power of
Symmetry [66.82463322411614]
本論文は, 最適遠点透過型シグナリング方式の問題点に焦点をあて, 対称性がその解法において重要な性質であることを示す。
プレイヤーが対称でアフィンコスト関数を持つとき,最適なエクアント説得スキームが計算可能であることを示す。
論文 参考訳(メタデータ) (2020-02-12T19:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。