論文の概要: A Technique to Create Weaker Abstract Board Game Agents via
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2209.00711v1
- Date: Thu, 1 Sep 2022 20:13:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:43:05.447804
- Title: A Technique to Create Weaker Abstract Board Game Agents via
Reinforcement Learning
- Title(参考訳): 強化学習によるWeaker Abstract Board Game Agents作成手法
- Authors: Peter Jamieson and Indrima Upadhyay
- Abstract要約: ボードゲームには、少なくとも1人のプレーヤーがプレーする必要があります。
対戦相手が行方不明になったとき、私たちはAIエージェントを作りました。
この研究では、ボードゲームをする弱いAIエージェントの作り方を説明します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Board games, with the exception of solo games, need at least one other player
to play. Because of this, we created Artificial Intelligent (AI) agents to play
against us when an opponent is missing. These AI agents are created in a number
of ways, but one challenge with these agents is that an agent can have superior
ability compared to us. In this work, we describe how to create weaker AI
agents that play board games. We use Tic-Tac-Toe, Nine-Men's Morris, and
Mancala, and our technique uses a Reinforcement Learning model where an agent
uses the Q-learning algorithm to learn these games. We show how these agents
can learn to play the board game perfectly, and we then describe our approach
to making weaker versions of these agents. Finally, we provide a methodology to
compare AI agents.
- Abstract(参考訳): ボードゲームは、ソロゲームを除くと、少なくとも1人のプレイヤーがプレイする必要がある。
このため、対戦相手が行方不明になったとき、私たちと対戦するためにAIエージェントを作成しました。
これらのAIエージェントはさまざまな方法で作られていますが、エージェントの課題のひとつは、エージェントが私たちよりも優れた能力を持つことです。
この研究では、ボードゲームをする弱いAIエージェントの作り方を説明します。
我々はtic-tac-toe,nine-men's morris,mancalaを用い,エージェントがq-learningアルゴリズムを用いてこれらのゲームを学ぶ強化学習モデルを用いる。
これらのエージェントがボードゲームを完璧にプレイすることを学ぶ方法を示し、より弱いバージョンのエージェントを作るための私たちのアプローチを説明します。
最後に、AIエージェントを比較する方法論を提供する。
関連論文リスト
- Teamwork under extreme uncertainty: AI for Pokemon ranks 33rd in the
world [0.0]
本稿では,ゲームのメカニズムを解説し,ゲーム解析を行う。
ゲームにおける2つの最大の課題は、バランスのとれたチームを維持し、不確実性の3つの源に対処することだ、という認識に基づいて、ユニークなAIアルゴリズムを提案する。
我々のAIエージェントは、これまでのすべての試みよりも大幅に向上し、世界で最も人気のある戦闘フォーマットの1つで、世界で33位まで上昇しました。
論文 参考訳(メタデータ) (2022-12-27T01:52:52Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - TiKick: Toward Playing Multi-agent Football Full Games from Single-agent
Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。
私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文 参考訳(メタデータ) (2021-10-09T08:34:58Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Learning Latent Representations to Influence Multi-Agent Interaction [65.44092264843538]
エージェントのポリシーの潜在表現を学習するための強化学習に基づくフレームワークを提案する。
提案手法は代替手段よりも優れており,他のエージェントに影響を与えることを学習している。
論文 参考訳(メタデータ) (2020-11-12T19:04:26Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z) - Provable Self-Play Algorithms for Competitive Reinforcement Learning [48.12602400021397]
我々はマルコフゲームの設定の下で、競争力強化学習における自己プレイについて研究する。
自己再生アルゴリズムは、ゲームのT$ステップをプレイした後、後悔の$tildemathcalO(sqrtT)$を達成する。
また, 最悪の場合においても, 時間内に実行可能であることを保証し, 若干悪い後悔を招き, エクスプロイトスタイルのアルゴリズムも導入する。
論文 参考訳(メタデータ) (2020-02-10T18:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。