Fugu-MT 論文翻訳(概要): A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based Policy Learning

論文の概要: A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based Policy Learning

arxiv url: http://arxiv.org/abs/2210.05448v2
Date: Sat, 28 Oct 2023 18:29:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 01:29:12.516008
Title: A General Learning Framework for Open Ad Hoc Teamwork Using Graph-based Policy Learning
Title（参考訳）: グラフベースのポリシー学習を用いたオープンアドホックチームワークのための一般学習フレームワーク
Authors: Arrasy Rahman and Ignacio Carlucho and Niklas H\"opner and Stefano V. Albrecht
Abstract要約: 完全かつ部分的な可観測性の下でオープンなアドホックチームワークのためのソリューションのクラスを開発する。我々のソリューションは、オープンなアドホックチームワークにおいて、完全かつ部分的に観察可能なケースで効率的なポリシーを学習できることを示します。
参考スコア（独自算出の注目度）: 11.998708550268978
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Open ad hoc teamwork is the problem of training a single agent to efficiently collaborate with an unknown group of teammates whose composition may change over time. A variable team composition creates challenges for the agent, such as the requirement to adapt to new team dynamics and dealing with changing state vector sizes. These challenges are aggravated in real-world applications in which the controlled agent only has a partial view of the environment. In this work, we develop a class of solutions for open ad hoc teamwork under full and partial observability. We start by developing a solution for the fully observable case that leverages graph neural network architectures to obtain an optimal policy based on reinforcement learning. We then extend this solution to partially observable scenarios by proposing different methodologies that maintain belief estimates over the latent environment states and team composition. These belief estimates are combined with our solution for the fully observable case to compute an agent's optimal policy under partial observability in open ad hoc teamwork. Empirical results demonstrate that our solution can learn efficient policies in open ad hoc teamwork in fully and partially observable cases. Further analysis demonstrates that our methods' success is a result of effectively learning the effects of teammates' actions while also inferring the inherent state of the environment under partial observability.
Abstract（参考訳）: オープンアドホックチームワークは、1人のエージェントをトレーニングして、時間とともに構成が変わる可能性のある、未知のチームメイトのグループと効率的に協力する、という問題です。変数チーム構成は、新しいチームのダイナミクスに適応する要件や状態ベクトルサイズの変化に対処する要件など、エージェントに対する課題を生成する。これらの課題は、制御されたエージェントが環境の一部のビューしか持たない現実のアプリケーションにおいて悪化する。本研究では,オープンなアドホックチームワークのためのソリューションを,完全かつ部分的な可観測性の下で開発する。まず,グラフニューラルネットワークアーキテクチャを活用した完全可観測ケースの解法を開発し,強化学習に基づく最適ポリシーを得る。次に、このソリューションを部分的に観察可能なシナリオに拡張し、潜伏した環境状態とチーム構成に対する信頼推定を維持する様々な方法論を提案します。これらの信念推定は、オープンアドホックなチームワークにおける部分的可観測性の下でエージェントの最適ポリシーを計算するための完全に可観測なケースのソリューションと組み合わせられる。実験の結果,オープンなアドホックチームワークにおいて,完全かつ部分的に観察可能なケースで効率的なポリシを学習できることが実証された。さらなる分析により、我々の手法の成功は、部分的可観測性の下で環境の固有の状態を推測しながら、チームメイトの行動の効果を効果的に学習した結果であることが示された。

関連論文リスト

Zero-Shot Coordination in Ad Hoc Teams with Generalized Policy Improvement and Difference Rewards [0.41562334038629595]
現実世界のマルチエージェントシステムではアドホックなチーム編成が必要であり、エージェントはそれまで目に見えない他のチームメイトと調整して、ゼロショットでタスクを解決しなければならない。ゼロショット転送設定において、事前訓練されたすべてのポリシーを活用することを提案する。この問題をアドホックなマルチエージェントマルコフ決定プロセスとして形式化し、一般化されたポリシー改善と差分報酬という2つの重要なアイデアを用いたソリューションを提案する。当社のアルゴリズムであるGPAT(Generalized Policy Improvement for Adhoc Teaming)が,3つの模擬環境(協調採餌,捕食者・捕食者・捕食者・捕食者・捕食者・捕食者・捕食者)における新規チームへのゼロショット移行を成功に導くことを実証的に実証した。
論文参考訳（メタデータ） (2025-10-17T19:55:25Z)
Decentralized Dynamic Cooperation of Personalized Models for Federated Continual Learning [50.56947843548702]
フェデレーション型連続学習のための分散動的協調フレームワークを提案する。顧客は、新しい知識の獲得と事前学習の維持のバランスをとるために、動的な協調学習連合を確立する。また、協調的・動的平衡を達成するために、マージブロックアルゴリズムと動的協調的進化アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-09-28T06:53:23Z)
Efficient Policy Adaptation with Contrastive Prompt Ensemble for Embodied Agents [6.402396836189286]
本稿では,強化学習のための新しいコントラスト・プロンプト・アンサンブル(ConPE)フレームワークを提案する。視覚言語モデル上に複数の視覚的プロンプトを持つガイド付きアテンションに基づくアンサンブルアプローチを考案し、ロバストな状態表現を構築する。実験では,いくつかの具体的エージェントタスクに対して,ConPEが他の最先端アルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-16T06:53:00Z)
N-Agent Ad Hoc Teamwork [36.10108537776956]
協調的マルチエージェント行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。本稿では,この問題を定式化し,エージェントモデリングを用いたポリシー最適化(POAM)アルゴリズムを提案する。 POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、多様なチームメイト行動への適応を可能にする。
論文参考訳（メタデータ） (2024-04-16T17:13:08Z)
Open Ad Hoc Teamwork with Cooperative Game Theory [28.605478081031215]
アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。有望な解決策の1つは、制限のない数のエージェントを扱うためにグラフニューラルネットワークの一般化性を活用することである。本稿では,ゲームフレームワークをベースとしたCIAOという新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-02-23T11:04:33Z)
Making Friends in the Dark: Ad Hoc Teamwork Under Partial Observability [11.786470737937638]
本稿では,部分観測可能性の下でのアドホックチームワークの設定を形式的に定義する。 11のドメインから70のPOMDPで得られた結果は、未知のタスクの解決において、未知のチームメイトを支援するだけでなく、より困難な問題へのスケーリングにも堅牢であることを示している。
論文参考訳（メタデータ） (2023-09-30T16:40:50Z)
ProAgent: Building Proactive Cooperative Agents with Large Language Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。 ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。 ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文参考訳（メタデータ） (2023-08-22T10:36:56Z)
Knowledge-based Reasoning and Learning under Partial Observability in Ad Hoc Teamwork [4.454557728745761]
本稿では,非単調な論理的推論に基づいてアドホックエージェントの動作を決定するアーキテクチャを提案する。これは、他のエージェントの行動を予測するモデルのオンライン選択、適応、学習をサポートする。単純なシナリオと複雑なシナリオの両方において、アーキテクチャのパフォーマンスが、最先端のデータ駆動ベースラインと同等か、あるいは同等であることを示す。
論文参考訳（メタデータ） (2023-06-01T15:21:27Z)
A Reinforcement Learning-assisted Genetic Programming Algorithm for Team Formation Problem Considering Person-Job Matching [70.28786574064694]
解の質を高めるために強化学習支援遺伝的プログラミングアルゴリズム(RL-GP)を提案する。効率的な学習を通じて得られる超ヒューリスティックなルールは、プロジェクトチームを形成する際の意思決定支援として利用することができる。
論文参考訳（メタデータ） (2023-04-08T14:32:12Z)
Detecting and Optimising Team Interactions in Software Development [58.720142291102135]
本稿では,ソフトウェア開発チームの機能的相互作用構造を検出するためのデータ駆動型手法を提案する。このアプローチでは、チームメンバのアクティビティレベルの違いを考慮し、ブロック制約設定モデルを使用します。我々のアプローチは、チームが合成されたベンチマークシナリオと機能的な相互作用構造を比較するのにどのように役立つかを示します。
論文参考訳（メタデータ） (2023-02-28T14:53:29Z)
Conditional Imitation Learning for Multi-Agent Games [89.897635970366]
本研究では,条件付きマルチエージェント模倣学習の課題について考察する。本稿では,スケーラビリティとデータ不足の難しさに対処する新しい手法を提案する。我々のモデルは,egoやパートナエージェント戦略よりも低ランクなサブスペースを学習し,サブスペースに補間することで,新たなパートナ戦略を推論し,適応する。
論文参考訳（メタデータ） (2022-01-05T04:40:13Z)
Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文参考訳（メタデータ） (2021-12-03T19:23:48Z)
Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable Grid Environments [62.997667081978825]
部分的に観測可能なグリッド環境におけるマルチエージェントナビゲーションの問題点を考察する。エージェントがまず、観察を行動にマッピングする方針を学習し、その目的を達成するためにこれらの方針に従うとき、強化学習アプローチを活用することを提案する。
論文参考訳（メタデータ） (2021-08-13T09:44:47Z)
Towards Open Ad Hoc Teamwork Using Graph-based Policy Learning [11.480994804659908]
我々は、さまざまなチーム構成の下でエージェントモデルと共同アクション値モデルを学ぶために、グラフニューラルネットワーク上に構築する。私たちは、我々のアプローチが、他のエージェントが学習者に与える影響をうまくモデル化し、動的なチーム構成にしっかりと適応するポリシーを導いたことを実証的に実証します。
論文参考訳（メタデータ） (2020-06-18T10:39:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。