論文の概要: A Generalist Hanabi Agent
- arxiv url: http://arxiv.org/abs/2503.14555v1
- Date: Mon, 17 Mar 2025 22:25:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:35.818946
- Title: A Generalist Hanabi Agent
- Title(参考訳): ジェネラル・ハナビのエージェント
- Authors: Arjun V Sudhakar, Hadi Nekoei, Mathieu Reymond, Miao Liu, Janarthanan Rajendran, Sarath Chandar,
- Abstract要約: 従来のマルチエージェント強化学習(MARL)システムは、反復的な相互作用を通じて協調戦略を開発することができる。
MARLシステムは、訓練されたもの以外のどんな環境でもうまく機能しない。
これは人気のある2対5のカードゲームであるハナビベンチマークで特に見られる。
- 参考スコア(独自算出の注目度): 14.30496247213363
- License:
- Abstract: Traditional multi-agent reinforcement learning (MARL) systems can develop cooperative strategies through repeated interactions. However, these systems are unable to perform well on any other setting than the one they have been trained on, and struggle to successfully cooperate with unfamiliar collaborators. This is particularly visible in the Hanabi benchmark, a popular 2-to-5 player cooperative card-game which requires complex reasoning and precise assistance to other agents. Current MARL agents for Hanabi can only learn one specific game-setting (e.g., 2-player games), and play with the same algorithmic agents. This is in stark contrast to humans, who can quickly adjust their strategies to work with unfamiliar partners or situations. In this paper, we introduce Recurrent Replay Relevance Distributed DQN (R3D2), a generalist agent for Hanabi, designed to overcome these limitations. We reformulate the task using text, as language has been shown to improve transfer. We then propose a distributed MARL algorithm that copes with the resulting dynamic observation- and action-space. In doing so, our agent is the first that can play all game settings concurrently, and extend strategies learned from one setting to other ones. As a consequence, our agent also demonstrates the ability to collaborate with different algorithmic agents -- agents that are themselves unable to do so. The implementation code is available at: $\href{https://github.com/chandar-lab/R3D2-A-Generalist-Hanabi-Agent}{R3D2-A-Generalist-Hanabi-Agent}$
- Abstract(参考訳): 従来のマルチエージェント強化学習(MARL)システムは、反復的な相互作用を通じて協調戦略を開発することができる。
しかし、これらのシステムは、訓練されたもの以外のどんな環境でもうまく機能せず、馴染みの無い協力者とうまく協力するのに苦労している。
これは、複雑な推論と他のエージェントへの正確な支援を必要とする人気のある2対5のカードゲームであるハナビベンチマークで特に見られる。
現在のハナビのMARLエージェントは1つの特定のゲームセット(例えば、2-playerゲーム)しか学習できず、同じアルゴリズムエージェントでプレイできる。
これは、不慣れなパートナーや状況に対処する戦略を迅速に調整できる人間とは対照的だ。
本稿では,ハナビの汎用エージェントであるRecurrent Replay Relevance Distributed DQN(R3D2)を紹介する。
我々は、翻訳を改善するために、テキストを用いてタスクを再構築する。
そこで我々は,結果の動的観測と行動空間に対処する分散MARLアルゴリズムを提案する。
我々のエージェントは、すべてのゲーム設定を同時にプレイし、ある設定から他の設定へ学習した戦略を拡張できる最初のエージェントです。
その結果、我々のエージェントは異なるアルゴリズムエージェントと協力する能力も示しています。
実装コードは以下の通りである。 $\href{https://github.com/chandar-lab/R3D2-A-Generalist-Hanabi-Agent}{R3D2-A-Generalist-Hanabi-Agent}$
関連論文リスト
- Impact of Decentralized Learning on Player Utilities in Stackelberg Games [57.08270857260131]
多くの2エージェントシステムでは、各エージェントは別々に学習し、2つのエージェントの報酬は完全に一致しない。
分散学習を用いたStackelbergゲームとしてこれらのシステムをモデル化し、標準後悔ベンチマークが少なくとも1人のプレイヤーにとって最悪の線形後悔をもたらすことを示す。
我々は,これらのベンチマークに関して,両プレイヤーにとってほぼ最適な$O(T2/3)を後悔するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-29T23:38:28Z) - Leading the Pack: N-player Opponent Shaping [52.682734939786464]
我々は、複数のコプレーヤと複数のシェーピングエージェントを含む環境に、対向型シェーピング(OS)メソッドを拡張します。
多数のコプレーヤでプレイすると,OSメソッドの相対的な性能が低下し,OSメソッドが動作しない可能性が示唆された。
論文 参考訳(メタデータ) (2023-12-19T20:01:42Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - On-the-fly Strategy Adaptation for ad-hoc Agent Coordination [21.029009561094725]
協調的な環境での訓練エージェントは、現実世界の人間(および他のエージェント)と効果的に対話できるAIエージェントの約束を提供する。
主な焦点は、セルフプレイパラダイムである。
本稿では,他のエージェントの戦略に対する後続の信念を用いて,エージェント戦略をその場で適応させることにより,この問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-03-08T02:18:11Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z) - Multi-Agent Collaboration via Reward Attribution Decomposition [75.36911959491228]
本稿では,StarCraftのマルチエージェントチャレンジにおいて,最先端のパフォーマンスを実現するコラボレーション型Q-ラーニング(CollaQ)を提案する。
CollaQは様々なStarCraft属性マップで評価され、既存の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-16T17:42:11Z) - The Design Of "Stratega": A General Strategy Games Framework [62.997667081978825]
Strategaはターンベースおよびリアルタイム戦略ゲームを作成するためのフレームワークである。
このフレームワークは、統計的フォワードプランニング(SFP)エージェントに焦点を当てて構築されている。
我々は,このフレームワークとそのエージェントの開発が,戦略ゲームにおける複雑な意思決定プロセスの理解に役立つことを願っている。
論文 参考訳(メタデータ) (2020-09-11T20:02:00Z) - Generating and Adapting to Diverse Ad-Hoc Cooperation Agents in Hanabi [4.777698073163644]
ハナビでは、コーディネートされたプレイヤーのグループは、事前に確立された慣習を有効活用することができるが、アドホックな設定でプレーするには、前回のコーディネートなしでパートナーの戦略に適応する必要がある。
本稿では,この目的のために多様な個体群を生成するための,有望なアルゴリズムのクラスとして品質多様性アルゴリズムを提案する。
また,エージェントは訓練中に多様な集団の恩恵を受けることができ,エージェントが知覚する行動ニッチに適応するためのシンプルな「メタストラテジー」を実装することができると仮定した。
論文 参考訳(メタデータ) (2020-04-28T05:03:19Z) - Evaluating the Rainbow DQN Agent in Hanabi with Unseen Partners [4.4532936483984065]
ハナビ(英: Hanabi)は、AI技術の存在に挑戦する協調ゲームであり、他のプレイヤーの精神状態をモデル化し、その振る舞いを解釈し予測することに焦点を当てている。
本稿では,一般的なRainbowDQNアーキテクチャを用いたセルフプレイによりトレーニングされたエージェントが,トレーニング中に見られなかった単純なルールベースのエージェントとうまく連携できないことを示す。
論文 参考訳(メタデータ) (2020-04-28T04:24:44Z) - "Other-Play" for Zero-Shot Coordination [21.607428852157273]
その他の遊び学習アルゴリズムは、より堅牢な戦略を探すことによって、セルフプレイを強化する。
本研究では,協力型カードゲーム「はなび」について検討し,OPエージェントが単独で訓練されたエージェントとペアを組むと,より高いスコアが得られることを示す。
論文 参考訳(メタデータ) (2020-03-06T00:39:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。