論文の概要: ProAgent: Building Proactive Cooperative Agents with Large Language
Models
- arxiv url: http://arxiv.org/abs/2308.11339v3
- Date: Thu, 11 Jan 2024 16:25:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 03:43:34.376009
- Title: ProAgent: Building Proactive Cooperative Agents with Large Language
Models
- Title(参考訳): ProAgent: 大規模言語モデルによる積極的な協調エージェントの構築
- Authors: Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun,
Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, Xiaojun Chang, Junge
Zhang, Feng Yin, Yitao Liang, Yaodong Yang
- Abstract要約: ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
- 参考スコア(独自算出の注目度): 89.53040828210945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building agents with adaptive behavior in cooperative tasks stands as a
paramount goal in the realm of multi-agent systems. Current approaches to
developing cooperative agents rely primarily on learning-based methods, whose
policy generalization depends heavily on the diversity of teammates they
interact with during the training phase. Such reliance, however, constrains the
agents' capacity for strategic adaptation when cooperating with unfamiliar
teammates, which becomes a significant challenge in zero-shot coordination
scenarios. To address this challenge, we propose ProAgent, a novel framework
that harnesses large language models (LLMs) to create proactive agents capable
of dynamically adapting their behavior to enhance cooperation with teammates.
ProAgent can analyze the present state, and infer the intentions of teammates
from observations. It then updates its beliefs in alignment with the teammates'
subsequent actual behaviors. Moreover, ProAgent exhibits a high degree of
modularity and interpretability, making it easily integrated into various of
coordination scenarios. Experimental evaluations conducted within the
Overcooked-AI environment unveil the remarkable performance superiority of
ProAgent, outperforming five methods based on self-play and population-based
training when cooperating with AI agents. Furthermore, in partnered with human
proxy models, its performance exhibits an average improvement exceeding 10%
compared to the current state-of-the-art method. For more information about our
project, please visit~\url{https://pku-proagent.github.io}.
- Abstract(参考訳): 協調作業における適応行動を持つエージェントの構築は、マルチエージェントシステムにおける最重要目標である。
協調エージェントの開発への現在のアプローチは、主に学習に基づく手法に依存しており、政策の一般化は、トレーニング期間中に相互作用するチームメイトの多様性に大きく依存している。
しかし、そのような依存は、馴染みのないチームメイトと協力する際に、エージェントの戦略的な適応能力を制限する。
この課題に対処するために,我々は,大規模言語モデル(llm)を活用した新しいフレームワーク proagent を提案する。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
その後、その信念をチームメイトの実際の行動に合わせて更新する。
さらに、プロエージェントは高いモジュール性と解釈性を示し、様々な協調シナリオに容易に統合できる。
オーバークッキングされたAI環境下での実験評価では,AIエージェントと協調する際の自己プレイと人口ベーストレーニングに基づく5つの方法よりも優れたProAgentの性能が示された。
さらに、人間のプロキシモデルと連携して、その性能は現在の最先端手法と比較して平均10%以上向上している。
プロジェクトの詳細については、~\url{https://pku-proagent.github.io}をご覧ください。
関連論文リスト
- Internet of Agents: Weaving a Web of Heterogeneous Agents for Collaborative Intelligence [79.5316642687565]
既存のマルチエージェントフレームワークは、多種多様なサードパーティエージェントの統合に苦慮することが多い。
我々はこれらの制限に対処する新しいフレームワークであるInternet of Agents (IoA)を提案する。
IoAはエージェント統合プロトコル、インスタントメッセージのようなアーキテクチャ設計、エージェントのチーム化と会話フロー制御のための動的メカニズムを導入している。
論文 参考訳(メタデータ) (2024-07-09T17:33:24Z) - Reaching Consensus in Cooperative Multi-Agent Reinforcement Learning
with Goal Imagination [16.74629849552254]
本稿では,複数のエージェントを協調するモデルに基づくコンセンサス機構を提案する。
提案したMulti-Adnt Goal Imagination (MAGI) フレームワークは、エージェントがImagined Common goalとコンセンサスに達するためのガイドである。
このような効率的なコンセンサス機構は、すべてのエージェントを協調して有用な将来状態に導くことができることを示す。
論文 参考訳(メタデータ) (2024-03-05T18:07:34Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - Fact-based Agent modeling for Multi-Agent Reinforcement Learning [6.431977627644292]
Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-10-18T19:43:38Z) - AgentCF: Collaborative Learning with Autonomous Language Agents for
Recommender Systems [112.76941157194544]
本稿では,エージェントベースの協調フィルタリングにより,レコメンデータシステムにおけるユーザとイテムのインタラクションをシミュレートするエージェントCFを提案する。
我々は、ユーザだけでなく、アイテムをエージェントとして、創造的に考慮し、両方のエージェントを同時に最適化する協調学習アプローチを開発します。
全体として、最適化されたエージェントは、ユーザ・イテム、ユーザ・ユーザ・ユーザ、アイテム・イテム、集合的インタラクションなど、フレームワーク内での多様なインタラクションの振る舞いを示す。
論文 参考訳(メタデータ) (2023-10-13T16:37:14Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Multi-agent Actor-Critic with Time Dynamical Opponent Model [16.820873906787906]
多エージェント強化学習では、複数のエージェントが共通の環境と相互作用しながら同時に学習する。
本稿では,TDOM(textitTime Dynamical Opponent Model)を提案する。
我々は,テスト期間中にTDOMが優れた対向行動予測を達成できることを実証的に示す。
論文 参考訳(メタデータ) (2022-04-12T07:16:15Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - Model-based Reinforcement Learning for Decentralized Multiagent
Rendezvous [66.6895109554163]
目標を他のエージェントと整合させる人間の能力の下にあるのは、他人の意図を予測し、自分たちの計画を積極的に更新する能力である。
分散型マルチエージェントレンデブーのためのモデルに基づく強化学習手法である階層型予測計画(HPP)を提案する。
論文 参考訳(メタデータ) (2020-03-15T19:49:20Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。