論文の概要: Reinforcement Learning for Hanabi
- arxiv url: http://arxiv.org/abs/2506.00458v1
- Date: Sat, 31 May 2025 08:24:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.086347
- Title: Reinforcement Learning for Hanabi
- Title(参考訳): 花びの強化学習
- Authors: Nina Cohen, Kordel K. France,
- Abstract要約: 我々は,異なる強化学習アルゴリズムを探索し,同一タイプのエージェントに対して,また他の種類のエージェントに対して,どのエージェントが最高の性能を示したかを検討した。
その結果、時間差(TD)アルゴリズムは、表型エージェントと比較して、プレイタイプの全体的なパフォーマンスとバランスが良好であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hanabi has become a popular game for research when it comes to reinforcement learning (RL) as it is one of the few cooperative card games where you have incomplete knowledge of the entire environment, thus presenting a challenge for a RL agent. We explored different tabular and deep reinforcement learning algorithms to see which had the best performance both against an agent of the same type and also against other types of agents. We establish that certain agents played their highest scoring games against specific agents while others exhibited higher scores on average by adapting to the opposing agent's behavior. We attempted to quantify the conditions under which each algorithm provides the best advantage and identified the most interesting interactions between agents of different types. In the end, we found that temporal difference (TD) algorithms had better overall performance and balancing of play types compared to tabular agents. Specifically, tabular Expected SARSA and deep Q-Learning agents showed the best performance.
- Abstract(参考訳): 強化学習(RL)に関しては、環境全体について不完全な知識を持つ数少ない協力型カードゲームのひとつであり、RLエージェントにとっての課題である。
我々は,異なる表型および深層強化学習アルゴリズムを探索し,同一タイプのエージェントと他の種類のエージェントの両方に対して,どのエージェントが最高の性能を示したかを検討した。
また,特定のエージェントに対して最高のスコアのゲームを行い,他のエージェントは相手エージェントの行動に適応して,平均的なスコアの獲得を図った。
我々は,各アルゴリズムが最良となる条件を定量化しようと試み,異なるタイプのエージェント間の最も興味深い相互作用を同定した。
その結果、時間差(TD)アルゴリズムは、表型エージェントと比較して、プレイタイプの全体的なパフォーマンスとバランスが良好であることが判明した。
具体的には,SARSAと深部Q-Learningエージェントが最高の成績を示した。
関連論文リスト
- Bandit Social Learning: Exploration under Myopic Behavior [54.767961587919075]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。
エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。
このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文 参考訳(メタデータ) (2023-02-15T01:57:57Z) - Reinforcement Learning Agents in Colonel Blotto [0.0]
エージェントベースモデルの特定の例に着目し、強化学習(RL)を用いてエージェントの環境における行動の訓練を行う。
我々はRLエージェントが1つの対戦相手を手動で打ち負かし、対戦相手の数が増えると依然として非常によく機能することを示した。
また、RLエージェントを解析し、最も高いQ値と低いQ値を与えるアクションを見て、どのような戦略が到達したかを調べる。
論文 参考訳(メタデータ) (2022-04-04T16:18:01Z) - Predicting Game Engagement and Difficulty Using AI Players [3.0501851690100277]
本稿では,人間のプレイヤの行動と経験を予測するための自動プレイテスト手法を提案する。
これまで,Deep Reinforcement Learningゲームプレイングエージェントがゲーム難易度とプレイヤーエンゲージメントの両方を予測することが実証されてきた。
モンテカルロ木探索(MCTS)によるDRL向上によるこのアプローチの改善
論文 参考訳(メタデータ) (2021-07-26T09:31:57Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Approximate exploitability: Learning a best response in large games [31.066412349285994]
我々は,エージェントに対する最良の応答を学習するための,スケーラブルな検索ベース深層強化学習アルゴリズムISMCTS-BRを紹介する。
本手法は,複数のエージェントに対する2プレイヤーゼロサムゲームにおいて実演する。
論文 参考訳(メタデータ) (2020-04-20T23:36:40Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z) - Multi Type Mean Field Reinforcement Learning [26.110052366068533]
平均場乗算アルゴリズムを複数のタイプに拡張する。
エージェント強化学習の分野では,3つのテストベッドで実験を行った。
論文 参考訳(メタデータ) (2020-02-06T20:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。