論文の概要: Open Ad Hoc Teamwork with Cooperative Game Theory
- arxiv url: http://arxiv.org/abs/2402.15259v5
- Date: Sun, 7 Jul 2024 12:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 02:29:06.939832
- Title: Open Ad Hoc Teamwork with Cooperative Game Theory
- Title(参考訳): 協調ゲーム理論を用いたオープンアドホックワーク
- Authors: Jianhong Wang, Yang Li, Yuan Zhang, Wei Pan, Samuel Kaski,
- Abstract要約: アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。
有望な解決策の1つは、制限のない数のエージェントを扱うためにグラフニューラルネットワークの一般化性を活用することである。
本稿では,ゲームフレームワークをベースとしたCIAOという新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 28.605478081031215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ad hoc teamwork poses a challenging problem, requiring the design of an agent to collaborate with teammates without prior coordination or joint training. Open ad hoc teamwork (OAHT) further complicates this challenge by considering environments with a changing number of teammates, referred to as open teams. One promising solution in practice to this problem is leveraging the generalizability of graph neural networks to handle an unrestricted number of agents with various agent-types, named graph-based policy learning (GPL). However, its joint Q-value representation over a coordination graph lacks convincing explanations. In this paper, we establish a new theory to understand the representation of the joint Q-value for OAHT and its learning paradigm, through the lens of cooperative game theory. Building on our theory, we propose a novel algorithm named CIAO, based on GPL's framework, with additional provable implementation tricks that can facilitate learning. The demos of experimental results are available on https://sites.google.com/view/ciao2024, and the code of experiments is published on https://github.com/hsvgbkhgbv/CIAO.
- Abstract(参考訳): アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。
オープンアドホックチームワーク(OAHT)は、オープンチームと呼ばれるチームメイトの数が増える環境を考えることで、この課題をさらに複雑にします。
この問題に対する現実的な解決策の1つは、グラフニューラルネットワークの一般化性を活用して、さまざまなエージェントタイプを持つ制限されていないエージェントの数を処理し、グラフベースのポリシー学習(GPL)と呼ぶ。
しかし、協調グラフ上の共同Q値表現は説得力のある説明を欠いている。
本稿では,協調ゲーム理論のレンズを通して,OAHTの合同Q値とその学習パラダイムの表現を理解するための新たな理論を確立する。
本理論に基づいて,GPL フレームワークに基づく新しいアルゴリズム CIAO を提案する。
実験結果のデモはhttps://sites.google.com/view/ciao2024で公開されており、実験のコードはhttps://github.com/hsvgbgbv/CIAOで公開されている。
関連論文リスト
- Generate-on-Graph: Treat LLM as both Agent and KG in Incomplete Knowledge Graph Question Answering [90.30473970040362]
我々は、知識グラフ(KG)を探索しながら、新しい実写トリプルを生成できる、Generate-on-Graph(GoG)と呼ばれる学習自由な手法を提案する。
具体的には、LLMをKGを探索するエージェントとして扱うだけでなく、KGとして扱い、探索したサブグラフに基づいて新たな事実を生成する選択生成探索フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-23T04:47:22Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Cooperative Open-ended Learning Framework for Zero-shot Coordination [35.330951448600594]
本研究では,2人のプレーヤーによる協調ゲームにおいて,オープンエンドの目標を構築するための枠組みを提案する。
また,ゲーム理論やグラフ理論からの知識を活用する実用的なアルゴリズムを提案する。
本手法は,異なるレベルのパートナーとコーディネートする場合に,最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2023-02-09T18:37:04Z) - PyGlove: Efficiently Exchanging ML Ideas as Code [81.80955202879686]
PyGloveは、アイデアを象徴的なルールベースのパッチとして表現している。
これによって、チーム間のネットワーク効果が実現します – 一度に、すべてのチームが他のすべてのチームにパッチを発行することができます。
論文 参考訳(メタデータ) (2023-02-03T18:52:09Z) - A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based
Policy Learning [11.998708550268978]
完全かつ部分的な可観測性の下でオープンなアドホックチームワークのためのソリューションのクラスを開発する。
我々のソリューションは、オープンなアドホックチームワークにおいて、完全かつ部分的に観察可能なケースで効率的なポリシーを学習できることを示します。
論文 参考訳(メタデータ) (2022-10-11T13:44:44Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Towards Collaborative Question Answering: A Preliminary Study [63.91687114660126]
我々は、モデレーターによって調整された複数の専門家エージェントが協力して、単一のエージェントだけでは答えられない質問に答える新しいQAタスクCollabQAを提案する。
専門家に分散可能な,大規模な知識グラフの合成データセットを作成する。
専門家が完璧で均一でない限り,コラボレーション構造を導入することなく,この問題が解決可能であることを示す。
論文 参考訳(メタデータ) (2022-01-24T14:27:00Z) - Finding Core Members of Cooperative Games using Agent-Based Modeling [0.0]
エージェント・ベース・モデリング(ABM)は、社会現象の洞察を得るための強力なパラダイムである。
本稿では,エージェントが連立関係を見つけられるように,AIMに組み込むアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-30T17:38:43Z) - Towards Open Ad Hoc Teamwork Using Graph-based Policy Learning [11.480994804659908]
我々は、さまざまなチーム構成の下でエージェントモデルと共同アクション値モデルを学ぶために、グラフニューラルネットワーク上に構築する。
私たちは、我々のアプローチが、他のエージェントが学習者に与える影響をうまくモデル化し、動的なチーム構成にしっかりと適応するポリシーを導いたことを実証的に実証します。
論文 参考訳(メタデータ) (2020-06-18T10:39:41Z) - Evaluating and Rewarding Teamwork Using Cooperative Game Abstractions [103.3630903577951]
我々は、協調ゲーム理論を用いて、プロスポーツから、人工RLエージェントのチームと現実世界のチームを研究する。
データからCFを推定するための協調ゲーム抽象化(CGA)と呼ばれるパラメトリックモデルを導入する。
CGAモデルに対する識別結果とサンプル境界の複雑さと、CGAを用いたShapley値の推定における誤差境界を提供する。
論文 参考訳(メタデータ) (2020-06-16T22:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。