論文の概要: A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based
Policy Learning
- arxiv url: http://arxiv.org/abs/2210.05448v1
- Date: Tue, 11 Oct 2022 13:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:04:43.814551
- Title: A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based
Policy Learning
- Title(参考訳): グラフベースのポリシー学習を用いたオープンアドホックチームワークのための一般学習フレームワーク
- Authors: Arrasy Rahman and Ignacio Carlucho and Niklas H\"opner and Stefano V.
Albrecht
- Abstract要約: 完全かつ部分的な可観測性の下でオープンなアドホックチームワークのためのソリューションのクラスを開発する。
私たちは,オープンなアドホックチームワークにおいて,完全かつ部分的に観察可能なケースで効率的なポリシを学習できることを示します。
- 参考スコア(独自算出の注目度): 8.374517261772029
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open ad hoc teamwork is the problem of training a single agent to efficiently
collaborate with an unknown group of teammates whose composition may change
over time. A variable team composition creates challenges for the agent, such
as the requirement to adapt to new team dynamics and dealing with changing
state vector sizes. These challenges are aggravated in real-world applications
where the controlled agent has no access to the full state of the environment.
In this work, we develop a class of solutions for open ad hoc teamwork under
full and partial observability. We start by developing a solution for the fully
observable case that leverages graph neural network architectures to obtain an
optimal policy based on reinforcement learning. We then extend this solution to
partially observable scenarios by proposing different methodologies that
maintain belief estimates over the latent environment states and team
composition. These belief estimates are combined with our solution for the
fully observable case to compute an agent's optimal policy under partial
observability in open ad hoc teamwork. Empirical results demonstrate that our
approach can learn efficient policies in open ad hoc teamwork in full and
partially observable cases. Further analysis demonstrates that our methods'
success is a result of effectively learning the effects of teammates' actions
while also inferring the inherent state of the environment under partial
observability
- Abstract(参考訳): オープンアドホックチームワークは、1人のエージェントをトレーニングして、時間とともに構成が変わる可能性のある、未知のチームメイトのグループと効率的に協力する、という問題です。
変数チーム構成は、新しいチームのダイナミクスに適応する要件や状態ベクトルサイズの変化に対処する要件など、エージェントに対する課題を生成する。
これらの課題は、制御されたエージェントが環境の全状態にアクセスできない現実のアプリケーションでは悪化する。
本研究では,オープンなアドホックチームワークのためのソリューションを,完全かつ部分的な可観測性の下で開発する。
まず,グラフニューラルネットワークアーキテクチャを活用した完全可観測ケースの解法を開発し,強化学習に基づく最適ポリシーを得る。
次に、このソリューションを部分的に観察可能なシナリオに拡張し、潜伏した環境状態とチーム構成に対する信頼推定を維持する様々な方法論を提案します。
これらの信念推定は、オープンアドホックなチームワークにおける部分的可観測性の下でエージェントの最適ポリシーを計算するための完全に可観測なケースのソリューションと組み合わせられる。
実験の結果,オープンなアドホックチームワークにおいて,完全かつ部分的に観察可能なケースで効率的なポリシを学習できることが実証された。
さらに分析したところ、我々の手法の成功はチームメイトの活動の効果を効果的に学習し、また部分観測可能性の下で環境固有の状態を推測した結果であることが示された。
関連論文リスト
- N-Agent Ad Hoc Teamwork [36.10108537776956]
協調的マルチエージェント行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。
本稿では,この問題を定式化し,エージェントモデリングを用いたポリシー最適化(POAM)アルゴリズムを提案する。
POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、多様なチームメイト行動への適応を可能にする。
論文 参考訳(メタデータ) (2024-04-16T17:13:08Z) - Open Ad Hoc Teamwork with Cooperative Game Theory [28.605478081031215]
アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。
有望な解決策の1つは、制限のない数のエージェントを扱うためにグラフニューラルネットワークの一般化性を活用することである。
本稿では,ゲームフレームワークをベースとしたCIAOという新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-23T11:04:33Z) - Making Friends in the Dark: Ad Hoc Teamwork Under Partial Observability [11.786470737937638]
本稿では,部分観測可能性の下でのアドホックチームワークの設定を形式的に定義する。
11のドメインから70のPOMDPで得られた結果は、未知のタスクの解決において、未知のチームメイトを支援するだけでなく、より困難な問題へのスケーリングにも堅牢であることを示している。
論文 参考訳(メタデータ) (2023-09-30T16:40:50Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Knowledge-based Reasoning and Learning under Partial Observability in Ad
Hoc Teamwork [4.454557728745761]
本稿では,非単調な論理的推論に基づいてアドホックエージェントの動作を決定するアーキテクチャを提案する。
これは、他のエージェントの行動を予測するモデルのオンライン選択、適応、学習をサポートする。
単純なシナリオと複雑なシナリオの両方において、アーキテクチャのパフォーマンスが、最先端のデータ駆動ベースラインと同等か、あるいは同等であることを示す。
論文 参考訳(メタデータ) (2023-06-01T15:21:27Z) - A Reinforcement Learning-assisted Genetic Programming Algorithm for Team
Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。
効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文 参考訳(メタデータ) (2023-04-08T14:32:12Z) - Detecting and Optimising Team Interactions in Software Development [58.720142291102135]
本稿では,ソフトウェア開発チームの機能的相互作用構造を検出するためのデータ駆動型手法を提案する。
このアプローチでは、チームメンバのアクティビティレベルの違いを考慮し、ブロック制約設定モデルを使用します。
我々のアプローチは、チームが合成されたベンチマークシナリオと機能的な相互作用構造を比較するのにどのように役立つかを示します。
論文 参考訳(メタデータ) (2023-02-28T14:53:29Z) - Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。
本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。
我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文 参考訳(メタデータ) (2022-01-05T04:40:13Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable
Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。
エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文 参考訳(メタデータ) (2021-08-13T09:44:47Z) - Towards Open Ad Hoc Teamwork Using Graph-based Policy Learning [11.480994804659908]
我々は、さまざまなチーム構成の下でエージェントモデルと共同アクション値モデルを学ぶために、グラフニューラルネットワーク上に構築する。
私たちは、我々のアプローチが、他のエージェントが学習者に与える影響をうまくモデル化し、動的なチーム構成にしっかりと適応するポリシーを導いたことを実証的に実証します。
論文 参考訳(メタデータ) (2020-06-18T10:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。