Fugu-MT 論文翻訳(概要): A Technique to Create Weaker Abstract Board Game Agents via Reinforcement Learning

論文の概要: A Technique to Create Weaker Abstract Board Game Agents via Reinforcement Learning

arxiv url: http://arxiv.org/abs/2209.00711v1
Date: Thu, 1 Sep 2022 20:13:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-05 12:43:05.447804
Title: A Technique to Create Weaker Abstract Board Game Agents via Reinforcement Learning
Title（参考訳）: 強化学習によるWeaker Abstract Board Game Agents作成手法
Authors: Peter Jamieson and Indrima Upadhyay
Abstract要約: ボードゲームには、少なくとも1人のプレーヤーがプレーする必要があります。対戦相手が行方不明になったとき、私たちはAIエージェントを作りました。この研究では、ボードゲームをする弱いAIエージェントの作り方を説明します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Board games, with the exception of solo games, need at least one other player to play. Because of this, we created Artificial Intelligent (AI) agents to play against us when an opponent is missing. These AI agents are created in a number of ways, but one challenge with these agents is that an agent can have superior ability compared to us. In this work, we describe how to create weaker AI agents that play board games. We use Tic-Tac-Toe, Nine-Men's Morris, and Mancala, and our technique uses a Reinforcement Learning model where an agent uses the Q-learning algorithm to learn these games. We show how these agents can learn to play the board game perfectly, and we then describe our approach to making weaker versions of these agents. Finally, we provide a methodology to compare AI agents.
Abstract（参考訳）: ボードゲームは、ソロゲームを除くと、少なくとも1人のプレイヤーがプレイする必要がある。このため、対戦相手が行方不明になったとき、私たちと対戦するためにAIエージェントを作成しました。これらのAIエージェントはさまざまな方法で作られていますが、エージェントの課題のひとつは、エージェントが私たちよりも優れた能力を持つことです。この研究では、ボードゲームをする弱いAIエージェントの作り方を説明します。我々はtic-tac-toe,nine-men's morris,mancalaを用い,エージェントがq-learningアルゴリズムを用いてこれらのゲームを学ぶ強化学習モデルを用いる。これらのエージェントがボードゲームを完璧にプレイすることを学ぶ方法を示し、より弱いバージョンのエージェントを作るための私たちのアプローチを説明します。最後に、AIエージェントを比較する方法論を提供する。

関連論文リスト

Reinforcement Learning for Hanabi [0.0]
我々は,異なる強化学習アルゴリズムを探索し,同一タイプのエージェントに対して,また他の種類のエージェントに対して,どのエージェントが最高の性能を示したかを検討した。その結果、時間差(TD)アルゴリズムは、表型エージェントと比較して、プレイタイプの全体的なパフォーマンスとバランスが良好であることが判明した。
論文参考訳（メタデータ） (2025-05-31T08:24:16Z)
FAIRGAME: a Framework for AI Agents Bias Recognition using Game Theory [51.96049148869987]
ゲーム理論を用いたAIエージェントバイアス認識フレームワークFAIRGAMEを提案する。我々は,AIエージェント間の人気ゲームにおけるバイアスのある結果を明らかにするために,その実装と利用について述べる。全体として、FAIRGAMEはユーザーが望むゲームやシナリオを確実に簡単にシミュレートできる。
論文参考訳（メタデータ） (2025-04-19T15:29:04Z)
Promoting Cooperation in the Public Goods Game using Artificial Intelligent Agents [0.0]
計算進化モデルを用いて、AIエージェントがプレイヤーの動作を模倣した場合のみ、協調のための重要なシナジー閾値が低下することがわかった。このことは、人間のプレイヤーを模倣するAIエージェントを設計することで、AIを活用して社会的ジレンマにおける集団的幸福を促進することができることを示唆している。
論文参考訳（メタデータ） (2024-12-06T22:16:21Z)
Reinforcement Learning for High-Level Strategic Control in Tower Defense Games [47.618236610219554]
戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。従来のスクリプティング手法と強化学習を組み合わせた自動手法を提案する。その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、AIのみを使用するよりも高性能で堅牢なエージェントが生まれることが示された。
論文参考訳（メタデータ） (2024-06-12T08:06:31Z)
Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-02-29T23:38:28Z)
Behavioural Cloning in VizDoom [1.4999444543328293]
本稿では,Imitation Learning (IL) による自律エージェントのゲーム「Doom 2」の学習方法について述べる。また,Reinforcement Learning (RL) がカメラの動きと軌跡データを比較することで,人間性に対するILとの比較を行う。
論文参考訳（メタデータ） (2024-01-08T16:15:43Z)
DanZero+: Dominating the GuanDan Game through Reinforcement Learning [95.90682269990705]
我々は、GuanDanという、非常に複雑で人気のあるカードゲームのためのAIプログラムを開発した。私たちはまず、DanZeroという名のAIプログラムをこのゲームのために提案しました。 AIの能力をさらに強化するために、政策に基づく強化学習アルゴリズムをGuanDanに適用する。
論文参考訳（メタデータ） (2023-12-05T08:07:32Z)
Minimax Exploiter: A Data Efficient Approach for Competitive Self-Play [12.754819077905061]
Minimax Exploiterは、敵の知識を活用するメインエージェントを利用するゲーム理論のアプローチである。簡単なターンベースゲームやアーケード学習環境,現代的なビデオゲームであるFor Honorなど,さまざまな設定でアプローチを検証する。
論文参考訳（メタデータ） (2023-11-28T19:34:40Z)
The Rise and Potential of Large Language Model Based Agents: A Survey [91.71061158000953]
大規模言語モデル(LLM)は、人工知能(AGI)の潜在的な火花と見なされるまず、エージェントの概念を哲学的起源からAI開発まで追跡し、LLMがエージェントに適した基盤である理由を説明します。単一エージェントシナリオ,マルチエージェントシナリオ,ヒューマンエージェント協調の3つの側面において,LLMベースのエージェントの広範な応用について検討する。
論文参考訳（メタデータ） (2023-09-14T17:12:03Z)
Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。 RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文参考訳（メタデータ） (2022-10-11T14:47:35Z)
Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文参考訳（メタデータ） (2022-04-04T16:18:01Z)
TiKick: Toward Playing Multi-agent Football Full Games from Single-agent Demonstrations [31.596018856092513]
Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、学習ベースのAIシステムである。私たちの知る限りでは、Tikickは、マルチエージェントのGoogle Research Footballのフルゲームを引き継ぐことができる、初めての学習ベースのAIシステムだ。
論文参考訳（メタデータ） (2021-10-09T08:34:58Z)
Learning from Learners: Adapting Reinforcement Learning Agents to be Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文参考訳（メタデータ） (2020-04-08T14:11:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。