論文の概要: Evaluating the Rainbow DQN Agent in Hanabi with Unseen Partners
- arxiv url: http://arxiv.org/abs/2004.13291v1
- Date: Tue, 28 Apr 2020 04:24:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 21:50:00.950381
- Title: Evaluating the Rainbow DQN Agent in Hanabi with Unseen Partners
- Title(参考訳): 花びのレインボーdqn剤の未発見パートナーによる評価
- Authors: Rodrigo Canaan, Xianbo Gao, Youjin Chung, Julian Togelius, Andy Nealen
and Stefan Menzel
- Abstract要約: ハナビ(英: Hanabi)は、AI技術の存在に挑戦する協調ゲームであり、他のプレイヤーの精神状態をモデル化し、その振る舞いを解釈し予測することに焦点を当てている。
本稿では,一般的なRainbowDQNアーキテクチャを用いたセルフプレイによりトレーニングされたエージェントが,トレーニング中に見られなかった単純なルールベースのエージェントとうまく連携できないことを示す。
- 参考スコア(独自算出の注目度): 4.4532936483984065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hanabi is a cooperative game that challenges exist-ing AI techniques due to
its focus on modeling the mental states ofother players to interpret and
predict their behavior. While thereare agents that can achieve near-perfect
scores in the game byagreeing on some shared strategy, comparatively little
progresshas been made in ad-hoc cooperation settings, where partnersand
strategies are not known in advance. In this paper, we showthat agents trained
through self-play using the popular RainbowDQN architecture fail to cooperate
well with simple rule-basedagents that were not seen during training and,
conversely, whenthese agents are trained to play with any individual
rule-basedagent, or even a mix of these agents, they fail to achieve
goodself-play scores.
- Abstract(参考訳): ハナビ(英: Hanabi)は、AI技術の存在に挑戦する協調ゲームであり、他のプレイヤーの精神状態をモデル化し、その振る舞いを解釈し予測することに焦点を当てている。
共有戦略によってゲームでほぼ完全なスコアを達成できるエージェントは存在するが、パートナーと戦略が事前に分かっていないアドホックな協調設定では、比較的進歩がほとんど行われていない。
本稿では,人気のあるレインボーdqnアーキテクチャを用いた自己遊びによって訓練されたエージェントは,トレーニング中に見られなかった単純なルールベースエージェントとうまく連携できず,逆に,個々のルールベースエージェント,あるいはこれらのエージェントの混合でさえも,優れた自己プレイスコアを達成することができないことを示す。
関連論文リスト
- ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Behavioral Differences is the Key of Ad-hoc Team Cooperation in
Multiplayer Games Hanabi [3.7202899712601964]
アドホックなチーム協力は、学習プロセスで見られていない他のプレイヤーと協力する問題である。
アドホックなチームコラボレーションの結果を,失敗,成功,シナジーに分析する。
本研究は,マルチプレイヤーゲームにおいて,アドホックなチームコラボレーションを成功させるために重要な要素の理解を深めるものである。
論文 参考訳(メタデータ) (2023-03-12T23:25:55Z) - Mastering the Game of No-Press Diplomacy via Human-Regularized
Reinforcement Learning and Planning [95.78031053296513]
ノープレス外交(No-press Diplomacy)は、協力と競争の両方を含む複雑な戦略ゲームである。
我々は、人間の模倣学習ポリシーに対する報酬最大化ポリシーを規則化する、DiL-piKLと呼ばれる計画アルゴリズムを導入する。
RL-DiL-piKLと呼ばれる自己再生強化学習アルゴリズムに拡張可能であることを示す。
論文 参考訳(メタデータ) (2022-10-11T14:47:35Z) - Does DQN really learn? Exploring adversarial training schemes in Pong [1.0323063834827415]
筆者らは,チェナーとプールという2つのセルフプレイトレーニングスキームについて検討し,アタリポンのエージェント性能の向上につながることを示す。
また,Chainer や Pool を用いたトレーニングエージェントにより,より予測力の高いネットワークアクティベーションが実現し,重要なゲーム状態の特徴を推定できることを示す。
論文 参考訳(メタデータ) (2022-03-20T18:12:55Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は、競合する社会的影響に基づく新しい学習メカニズムの提供に焦点を当てる。
本研究は,競争競合の概念に基づいて,これらのエージェントの評価を人的視点から変えられるかを検討することを目的とする。
論文 参考訳(メタデータ) (2020-11-02T21:54:18Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - Moody Learners -- Explaining Competitive Behaviour of Reinforcement
Learning Agents [65.2200847818153]
競合シナリオでは、エージェントは動的環境を持つだけでなく、相手の行動に直接影響される。
エージェントのQ値の観察は通常、その振る舞いを説明する方法であるが、選択されたアクション間の時間的関係は示さない。
論文 参考訳(メタデータ) (2020-07-30T11:30:42Z) - Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi [4.777698073163644]
ハナビでは、コーディネートされたプレイヤーのグループは、事前に確立された慣習を有効活用することができるが、アドホックな設定でプレーするには、前回のコーディネートなしでパートナーの戦略に適応する必要がある。
本稿では,この目的のために多様な個体群を生成するための,有望なアルゴリズムのクラスとして品質多様性アルゴリズムを提案する。
また,エージェントは訓練中に多様な集団の恩恵を受けることができ,エージェントが知覚する行動ニッチに適応するためのシンプルな「メタストラテジー」を実装することができると仮定した。
論文 参考訳(メタデータ) (2020-04-28T05:03:19Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。