論文の概要: Reinforcing Competitive Multi-Agents for Playing So Long Sucker
- arxiv url: http://arxiv.org/abs/2411.11057v1
- Date: Sun, 17 Nov 2024 12:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:33:42.255736
- Title: Reinforcing Competitive Multi-Agents for Playing So Long Sucker
- Title(参考訳): 長時間サッカーをプレイする競争力のあるマルチエージェントの強化
- Authors: Medant Sharan, Chandranath Adak,
- Abstract要約: 本稿では,戦略ゲームSo Long Suckerにおける古典的深層学習(DRL)アルゴリズム,DQN,DDQN,Dueling DQNの使用について検討する。
研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
- 参考スコア(独自算出の注目度): 0.393259574660092
- License:
- Abstract: This paper examines the use of classical deep reinforcement learning (DRL) algorithms, DQN, DDQN, and Dueling DQN, in the strategy game So Long Sucker (SLS), a diplomacy-driven game defined by coalition-building and strategic betrayal. SLS poses unique challenges due to its blend of cooperative and adversarial dynamics, making it an ideal platform for studying multi-agent learning and game theory. The study's primary goal is to teach autonomous agents the game's rules and strategies using classical DRL methods. To support this effort, the authors developed a novel, publicly available implementation of SLS, featuring a graphical user interface (GUI) and benchmarking tools for DRL algorithms. Experimental results reveal that while considered basic by modern DRL standards, DQN, DDQN, and Dueling DQN agents achieved roughly 50% of the maximum possible game reward. This suggests a baseline understanding of the game's mechanics, with agents favoring legal moves over illegal ones. However, a significant limitation was the extensive training required, around 2000 games, for agents to reach peak performance, compared to human players who grasp the game within a few rounds. Even after prolonged training, agents occasionally made illegal moves, highlighting both the potential and limitations of these classical DRL methods in semi-complex, socially driven games. The findings establish a foundational benchmark for training agents in SLS and similar negotiation-based environments while underscoring the need for advanced or hybrid DRL approaches to improve learning efficiency and adaptability. Future research could incorporate game-theoretic strategies to enhance agent decision-making in dynamic multi-agent contexts.
- Abstract(参考訳): 本稿では,従来のDQN,DDQN,Dueling DQNの戦略ゲームSo Long Sucker(SLS)におけるDRLアルゴリズムの利用について検討する。
SLSは、協調的な力学と敵対的な力学が混ざり合っており、マルチエージェント学習とゲーム理論を研究する上で理想的なプラットフォームとなっている。
研究の第一の目的は、古典的なDRL手法を用いて、ゲームのルールと戦略を自律エージェントに教えることである。
この取り組みを支援するために、著者らは、GUIとDRLアルゴリズムのベンチマークツールを備えた、新しいSLSの実装を開発した。
実験結果から,DQN,DDQN,Dueling DQNエージェントは,現在のDRL標準では基本的と考えられるが,最大ゲーム報酬の約50%を達成できた。
これはゲームの仕組みの基本的な理解を示唆しており、エージェントは違法なものよりも合法的な動きを好むことを示唆している。
しかしながら、エージェントがピークパフォーマンスに達するためには、エージェントが数ラウンド以内でゲームを把握している人間プレイヤーと比較して、2000試合前後の広範なトレーニングが必要であった。
長い訓練の後でさえ、エージェントは時々違法な動きをし、半複雑で社会的に駆動されるゲームにおける古典的なDRL法の可能性と限界を強調した。
本研究は,学習効率と適応性を向上させるために,先進的あるいはハイブリッドDRLアプローチの必要性を強調しつつ,SLSおよび同様の交渉環境における訓練エージェントの基礎的ベンチマークを構築した。
今後の研究は、動的マルチエージェントコンテキストにおけるエージェント意思決定を強化するゲーム理論戦略を取り入れる可能性がある。
関連論文リスト
- FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning [25.857375787748715]
我々は、リアルタイムの格闘ゲームプラットフォームであるFightLadderを紹介し、競争力のあるMARL研究を促進する。
競争ゲームのための最先端のMARLアルゴリズムの実装と評価指標のセットを提供する。
シングルプレイヤーモードで12文字を連続的に打ち破る汎用エージェントを訓練することにより,このプラットフォームの実現可能性を示す。
論文 参考訳(メタデータ) (2024-06-04T08:04:23Z) - Two-Step Reinforcement Learning for Multistage Strategy Card Game [0.0]
本研究では,「指輪のロード:カードゲーム(LOTRCG)」に適した2段階強化学習(RL)戦略を紹介する。
本研究は,段階学習アプローチを採用することにより,従来のRL手法から分岐する。
また,異なるRLエージェントがゲームにおける様々な意思決定に使用されるマルチエージェントシステムについても検討した。
論文 参考訳(メタデータ) (2023-11-29T01:31:21Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Learning Monopoly Gameplay: A Hybrid Model-Free Deep Reinforcement
Learning and Imitation Learning Approach [31.066718635447746]
強化学習(RL)は、環境と相互作用するエージェントに依存し、それによって受け取った報酬の累積合計を最大化します。
マルチプレイヤーのモノポリーゲームでは、プレイヤーは取引など複雑なアクションを含む毎ターンに複数の決定をしなければならない。
本稿では,モノポリーの勝利戦略を再生および学習できるハイブリッドモデルフリーディープRL(DRL)アプローチについて紹介する。
論文 参考訳(メタデータ) (2021-03-01T01:40:02Z) - DeepCrawl: Deep Reinforcement Learning for Turn-based Strategy Games [137.86426963572214]
Deep CrawlはiOSとAndroid用の完全にプレイ可能なRogueライクなプロトタイプで、すべてのエージェントがDeep Reinforcement Learning (DRL)を使用してトレーニングされたポリシーネットワークによって制御される。
本研究の目的は、近年のDRLの進歩が、ビデオゲームにおける非プレイヤーキャラクターに対する説得力のある行動モデルの開発に有効であるかどうかを理解することである。
論文 参考訳(メタデータ) (2020-12-03T13:53:29Z) - The NetHack Learning Environment [79.06395964379107]
本稿では、強化学習研究のための手続き的に生成されたローグのような環境であるNetHack Learning Environment(NLE)を紹介する。
我々は,NetHackが,探索,計画,技術習得,言語条件付きRLといった問題に対する長期的な研究を促進するのに十分複雑であると主張している。
我々は,分散されたDeep RLベースラインとランダムネットワーク蒸留探索を用いて,ゲームの初期段階における実験的な成功を示す。
論文 参考訳(メタデータ) (2020-06-24T14:12:56Z) - Distributed Reinforcement Learning for Cooperative Multi-Robot Object
Manipulation [53.262360083572005]
強化学習(RL)を用いた協調型マルチロボットオブジェクト操作タスクの検討
分散近似RL(DA-RL)とゲーム理論RL(GT-RL)の2つの分散マルチエージェントRLアプローチを提案する。
本稿では, DA-RL と GT-RL を多エージェントシステムに適用し, 大規模システムへの拡張が期待される。
論文 参考訳(メタデータ) (2020-03-21T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。