論文の概要: Emergence of Theory of Mind Collaboration in Multiagent Systems
- arxiv url: http://arxiv.org/abs/2110.00121v1
- Date: Thu, 30 Sep 2021 23:28:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:26:00.460950
- Title: Emergence of Theory of Mind Collaboration in Multiagent Systems
- Title(参考訳): マルチエージェントシステムにおけるマインドコラボレーション理論の創発
- Authors: Luyao Yuan, Zipeng Fu, Linqi Zhou, Kexin Yang, Song-Chun Zhu
- Abstract要約: ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
- 参考スコア(独自算出の注目度): 65.97255691640561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, in the study of multiagent systems, the intentions of agents are
usually ignored. Nonetheless, as pointed out by Theory of Mind (ToM), people
regularly reason about other's mental states, including beliefs, goals, and
intentions, to obtain performance advantage in competition, cooperation or
coalition. However, due to its intrinsic recursion and intractable modeling of
distribution over belief, integrating ToM in multiagent planning and decision
making is still a challenge. In this paper, we incorporate ToM in multiagent
partially observable Markov decision process (POMDP) and propose an adaptive
training algorithm to develop effective collaboration between agents with ToM.
We evaluate our algorithms with two games, where our algorithm surpasses all
previous decentralized execution algorithms without modeling ToM.
- Abstract(参考訳): 現在、マルチエージェントシステムの研究では、エージェントの意図は通常無視される。
それにもかかわらず、心の理論(tom)で指摘されているように、人々は競争、協力、連立におけるパフォーマンスの優位性を得るために、信念、目標、意図を含む他人の精神状態について定期的に推論する。
しかし、その本質的な再帰と信条上の分散の難解なモデリングのため、マルチエージェントの計画と意思決定へのtomの統合は依然として課題である。
本稿では,マルチエージェント部分観測可能なマルコフ決定プロセス(POMDP)にToMを組み込み,ToMとエージェント間の効果的な協調を開発するための適応トレーニングアルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
関連論文リスト
- Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - Approximate Linear Programming for Decentralized Policy Iteration in Cooperative Multi-agent Markov Decision Processes [5.842054972839244]
我々は,mエージェントを含む協調的マルチエージェントマルコフ決定過程について考察する。
マルチエージェント設定のポリシーイテレーションプロセスでは、アクションの数はエージェントの数とともに指数関数的に増加する。
本稿では,関数近似を用いた近似線形計画法を用いて,近似分散型ポリシー反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-20T14:14:13Z) - Continuous-Time Distributed Dynamic Programming for Networked Multi-Agent Markov Decision Processes [7.464789724562025]
本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する連続時間分散動的プログラミング(DP)アルゴリズムについて検討する。
本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。
論文 参考訳(メタデータ) (2023-07-31T14:25:20Z) - On the Complexity of Multi-Agent Decision Making: From Learning in Games
to Partial Monitoring [105.13668993076801]
マルチエージェント強化学習(MARL)理論における中心的な問題は、構造条件やアルゴリズムの原理がサンプル効率の学習保証につながるかを理解することである。
本稿では,複数のエージェントを用いた対話型意思決定のための一般的な枠組みとして,この問題について考察する。
マルチエージェント意思決定における統計的複雑性を特徴付けることは、単一エージェント決定の統計的複雑性を特徴付けることと等価であることを示す。
論文 参考訳(メタデータ) (2023-05-01T06:46:22Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Partner-Aware Algorithms in Decentralized Cooperative Bandit Teams [14.215359943041369]
我々は、より一般的なマルチエージェントコラボレーションの抽象化として、複合報酬を用いた分散マルチエージェント帯域(MAB)問題を提案し、解析する。
本稿では,よく知られた単一エージェント・アッパー信頼境界アルゴリズムを拡張した逐次意思決定のためのパートナー・アウェア戦略を提案する。
提案したパートナー意識戦略は、他の既知の手法よりも優れており、人間による研究は、パートナー意識戦略を実装するAIエージェントと協力することを好むことを示唆している。
論文 参考訳(メタデータ) (2021-10-02T08:17:30Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。