論文の概要: Learning to Cooperate with Unseen Agent via Meta-Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2111.03431v1
- Date: Fri, 5 Nov 2021 12:01:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:42:10.304354
- Title: Learning to Cooperate with Unseen Agent via Meta-Reinforcement Learning
- Title(参考訳): メタ強化学習による未知エージェントとの協調学習
- Authors: Rujikorn Charakorn, Poramate Manoonpong, Nat Dilokthanakul
- Abstract要約: アドホックなチームワーク問題は、エージェントが共通の目標を達成するために、以前は目に見えないエージェントと協力しなければならない状況を記述する。
エージェントの振る舞いを設計するためにドメイン知識を使用することで、エージェントに協調的なスキルを実装することができる。
本稿では,メタ強化学習(meta-RL)の定式化をアドホックなチームワーク問題に応用する。
- 参考スコア(独自算出の注目度): 4.060731229044571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ad hoc teamwork problem describes situations where an agent has to cooperate
with previously unseen agents to achieve a common goal. For an agent to be
successful in these scenarios, it has to have a suitable cooperative skill. One
could implement cooperative skills into an agent by using domain knowledge to
design the agent's behavior. However, in complex domains, domain knowledge
might not be available. Therefore, it is worthwhile to explore how to directly
learn cooperative skills from data. In this work, we apply meta-reinforcement
learning (meta-RL) formulation in the context of the ad hoc teamwork problem.
Our empirical results show that such a method could produce robust cooperative
agents in two cooperative environments with different cooperative
circumstances: social compliance and language interpretation. (This is a full
paper of the extended abstract version.)
- Abstract(参考訳): アドホックなチームワーク問題は、エージェントが共通の目標を達成するために、以前は目に見えないエージェントと協力しなければならない状況を記述する。
エージェントがこれらのシナリオで成功するためには、適切な協調技術が必要である。
ドメイン知識を使ってエージェントの振る舞いを設計することで、エージェントに協調的なスキルを実装できる。
しかし、複雑なドメインでは、ドメイン知識は利用できないかもしれない。
したがって、データから協調的スキルを直接学習する方法を探求する価値がある。
本研究では,メタ強化学習(meta-RL)の定式化を,アドホックなチームワーク問題に応用する。
提案手法は,協調環境の異なる2つの協調環境において,社会的コンプライアンスと言語解釈において堅牢な協調エージェントを生成できることを示す。
(これは拡張抽象版の全文である。)
関連論文リスト
- Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Cooperation on the Fly: Exploring Language Agents for Ad Hoc Teamwork in
the Avalon Game [25.823665278297057]
本研究は,自然言語によって駆動される環境下でエージェントが動作する,アドホックなチームワークの問題に焦点を当てる。
チームコラボレーションにおけるLLMエージェントの可能性を明らかにするとともに,コミュニケーションにおける幻覚に関連する課題を明らかにする。
この問題に対処するため,LLMに拡張メモリとコード駆動推論を備えた汎用エージェントであるCodeActを開発した。
論文 参考訳(メタデータ) (2023-12-29T08:26:54Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - CAMEL: Communicative Agents for "Mind" Exploration of Large Language
Model Society [58.04479313658851]
本稿では,コミュニケーションエージェント間の自律的協調を支援するスケーラブルな手法の構築の可能性について検討する。
本稿では,ロールプレイングという新しいコミュニケーションエージェントフレームワークを提案する。
コントリビューションには、新しいコミュニケーティブエージェントフレームワークの導入、マルチエージェントシステムの協調行動や能力を研究するためのスケーラブルなアプローチの提供などが含まれます。
論文 参考訳(メタデータ) (2023-03-31T01:09:00Z) - Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。
本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。
Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文 参考訳(メタデータ) (2022-01-05T20:54:10Z) - Interactive Inverse Reinforcement Learning for Cooperative Games [7.257751371276486]
我々は、潜在的に最適でないパートナーと効果的に協力することを学ぶことができるAIエージェントを設計する問題について研究する。
この問題は、協調的な2エージェントのマルコフ決定プロセスとしてモデル化されている。
学習者の方針が遷移関数に有意な影響を及ぼす場合、報酬関数を効率的に学習できることが示される。
論文 参考訳(メタデータ) (2021-11-08T18:24:52Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - Emergence of Pragmatics from Referential Game between Theory of Mind
Agents [64.25696237463397]
エージェントが手書きのルールを指定せずに「行間を読む」能力を自発的に学習するアルゴリズムを提案する。
協調型マルチエージェント教育状況における心の理論(ToM)を統合し,適応型強化学習(RL)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-01-21T19:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。