論文の概要: Mediated Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.08419v1
- Date: Wed, 14 Jun 2023 10:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 19:16:15.403332
- Title: Mediated Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習
- Authors: Dmitry Ivanov, Ilya Zisman, Kirill Chernyshev
- Abstract要約: 社会福祉を最大化するために、政策グラデーションを持つエージェントとともに仲介者を訓練する方法を示す。
行列ゲームと反復ゲームにおける実験は,マルチエージェント強化学習におけるメディエータの適用の可能性を強調した。
- 参考スコア(独自算出の注目度): 3.8581550679584473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The majority of Multi-Agent Reinforcement Learning (MARL) literature equates
the cooperation of self-interested agents in mixed environments to the problem
of social welfare maximization, allowing agents to arbitrarily share rewards
and private information. This results in agents that forgo their individual
goals in favour of social good, which can potentially be exploited by selfish
defectors. We argue that cooperation also requires agents' identities and
boundaries to be respected by making sure that the emergent behaviour is an
equilibrium, i.e., a convention that no agent can deviate from and receive
higher individual payoffs. Inspired by advances in mechanism design, we propose
to solve the problem of cooperation, defined as finding socially beneficial
equilibrium, by using mediators. A mediator is a benevolent entity that may act
on behalf of agents, but only for the agents that agree to it. We show how a
mediator can be trained alongside agents with policy gradient to maximize
social welfare subject to constraints that encourage agents to cooperate
through the mediator. Our experiments in matrix and iterative games highlight
the potential power of applying mediators in MARL.
- Abstract(参考訳): マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning, MARL)の文献の大半は、社会的福祉の最大化の問題に、混合環境における自己関心のエージェントの協力と一致する。
この結果、個人の目標を放棄して社会的利益を優先するエージェントが生まれ、利己的な離反者によって悪用される可能性がある。
協力はまた、創発的な行動が均衡であること、すなわち、エージェントがより高い個別の報酬を受け取れないことを保証することによって、エージェントのアイデンティティと境界を尊重することを要求する。
機構設計の進歩に触発されて,メディエータを用いて社会的に有益な均衡を見出すものとして定義された協調問題の解決を提案する。
仲介者は、代理人のために行動するが、それに同意する代理人のためにのみ行動する好意的な存在である。
本研究では,政策勾配を有するエージェントと並行して仲介者を訓練し,仲介者を通じて協力を促す制約を受ける社会福祉を最大化する方法を示す。
行列ゲームと反復ゲームにおける我々の実験は、MARLにおけるメディエータの適用の可能性を強調している。
関連論文リスト
- Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - Towards a Unifying Model of Rationality in Multiagent Systems [11.321217099465196]
マルチエージェントシステムは、これらのエージェントが互いに協力するのと同じくらい効果的に、他のエージェント(人間を含む)と協力する必要がある。
本稿では,個々に合理的な学習者であり,相互に協力できる社会的知的エージェントの汎用モデルを提案する。
我々は、異なる形態の後悔のために、社会的にインテリジェントなエージェントを構築する方法を示します。
論文 参考訳(メタデータ) (2023-05-29T13:18:43Z) - Stubborn: An Environment for Evaluating Stubbornness between Agents with
Aligned Incentives [4.022057598291766]
フルアラインインセンティブを持つエージェント間の頑健性を評価する環境であるStubbornについて紹介する。
予備的な結果として, エージェントは, パートナーの頑健さを, 環境における選択の改善のシグナルとして活用することを学ぶ。
論文 参考訳(メタデータ) (2023-04-24T17:19:15Z) - ToM2C: Target-oriented Multi-agent Communication and Cooperation with
Theory of Mind [18.85252946546942]
心の理論(Theory of Mind、ToM)は、効果的なコミュニケーションと協力が可能な社会的に知的なエージェントを構築する。
このアイデアは、協調ナビゲーションとマルチセンサーターゲットカバレッジという、2つの典型的な目標指向型マルチエージェントタスクで実証される。
論文 参考訳(メタデータ) (2021-10-15T18:29:55Z) - A Cooperative-Competitive Multi-Agent Framework for Auto-bidding in
Online Advertising [53.636153252400945]
本稿では,自動入札のための総合的マルチエージェント強化学習フレームワーク,すなわちMAABを提案し,自動入札戦略を学習する。
当社のアプローチは、社会的福祉の観点から、いくつかの基準的手法を上回り、広告プラットフォームの収益を保証します。
論文 参考訳(メタデータ) (2021-06-11T08:07:14Z) - Improving Social Welfare While Preserving Autonomy via a Pareto Mediator [15.10019081251098]
エージェントが自身のアクションを選択したり、中央のメディエーターにアクションを委譲したりできるドメインでは、オープンな質問は、エージェントを委譲する代わりに仲介者がどのようにアクションをとるべきかである。
既存のアプローチでは、デリゲートエージェントを使用して非デリゲートエージェントを罰し、すべてのエージェントを委譲しようとする。
エージェントを悪化させることなく、エージェントの委譲結果を改善することを目的としたPareto Mediatorを導入する。
論文 参考訳(メタデータ) (2021-06-07T19:34:42Z) - Cooperation and Reputation Dynamics with Reinforcement Learning [6.219565750197311]
私達は信頼および協同を確立する方法として評判がいかに使用されるか示します。
好ましくない平衡への収束を緩和する2つのメカニズムを提案する。
この結果が進化ゲーム理論の文献とどのように関係しているかを示す。
論文 参考訳(メタデータ) (2021-02-15T12:48:56Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Scalable Multi-Agent Inverse Reinforcement Learning via
Actor-Attention-Critic [54.2180984002807]
マルチエージェント逆逆強化学習 (MA-AIRL) は, 単エージェントAIRLをマルチエージェント問題に適用する最近の手法である。
本稿では,従来の手法よりもサンプル効率が高く,スケーラブルなマルチエージェント逆RLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-24T20:30:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。