論文の概要: Investigating the Impact of Direct Punishment on the Emergence of
Cooperation in Multi-Agent Reinforcement Learning Systems
- arxiv url: http://arxiv.org/abs/2301.08278v2
- Date: Sat, 13 May 2023 21:25:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 23:37:10.984293
- Title: Investigating the Impact of Direct Punishment on the Emergence of
Cooperation in Multi-Agent Reinforcement Learning Systems
- Title(参考訳): マルチエージェント強化学習システムにおける直接罰が協調の創発に及ぼす影響の検討
- Authors: Nayana Dasgupta, Mirco Musolesi
- Abstract要約: 本稿では,多エージェント強化学習システムにおける直接罰に関連する行動と学習のダイナミクスを包括的に分析する。
我々は,これらの重要なメカニズムがエージェントが学んだ戦略のダイナミクスに与える影響を,広範囲かつ体系的に評価する。
- 参考スコア(独自算出の注目度): 2.5426469613007012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving the problem of cooperation is of fundamental importance to the
creation and maintenance of functional societies, with examples of cooperative
dilemmas ranging from navigating busy road junctions to negotiating carbon
reduction treaties. As the use of AI becomes more pervasive throughout society,
the need for socially intelligent agents that are able to navigate these
complex cooperative dilemmas is becoming increasingly evident. In the natural
world, direct punishment is an ubiquitous social mechanism that has been shown
to benefit the emergence of cooperation within populations. However no prior
work has investigated its impact on the development of cooperation within
populations of artificial learning agents experiencing social dilemmas.
Additionally, within natural populations the use of any form of punishment is
strongly coupled with the related social mechanisms of partner selection and
reputation. However, no previous work has considered the impact of combining
multiple social mechanisms on the emergence of cooperation in multi-agent
systems. Therefore, in this paper we present a comprehensive analysis of the
behaviours and learning dynamics associated with direct punishment in
multi-agent reinforcement learning systems and how it compares to third-party
punishment, when both are combined with the related social mechanisms of
partner selection and reputation. We provide an extensive and systematic
evaluation of the impact of these key mechanisms on the dynamics of the
strategies learned by agents. Finally, we discuss the implications of the use
of these mechanisms on the design of cooperative AI systems.
- Abstract(参考訳): 協力の解決は機能的社会の創出と維持に不可欠であり、道路の分岐点の航行から炭素削減条約の交渉まで、協調的なジレンマの例である。
AIの利用が社会全体に広まるにつれ、これらの複雑な協調ジレンマをナビゲートできる社会的にインテリジェントなエージェントの必要性がますます明白になりつつある。
自然界では、直接罰(direct punishment)は、集団内の協力の出現の恩恵を受ける、ユビキタスな社会的メカニズムである。
しかし、社会的ジレンマを経験する人工学習エージェントの集団における協力の発展に先行研究が与える影響は調査されていない。
さらに、自然集団内では、いかなる形態の刑罰も、パートナーの選択と評判の関連する社会的メカニズムと強く結びついている。
しかし, マルチエージェントシステムにおける協調の出現に, 複数の社会的メカニズムを組み合わせることが及ぼす影響は, これまで検討されていない。
そこで,本稿では,マルチエージェント強化学習システムにおける直接的な処罰に関連する行動と学習のダイナミクスを包括的に分析し,パートナー選択と評価の社会的メカニズムと組み合わせることで,第三者の罰と比較する。
エージェントが学習した戦略のダイナミクスに対するこれらの重要なメカニズムの影響を広範囲かつ体系的に評価する。
最後に,これらのメカニズムが協調型AIシステムの設計に与える影響について論じる。
関連論文リスト
- Emergent Cooperation under Uncertain Incentive Alignment [7.906156032228933]
頻繁な出会いを特徴とするシナリオにおける強化学習エージェント間の協力関係について検討する。
本研究では,複合モチベーション環境における協調を促進するために文献で提案されている評価や本質的な報酬などのメカニズムの効果について検討する。
論文 参考訳(メタデータ) (2024-01-23T10:55:54Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language
Agents [110.61079677969957]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology
View [64.43238868957813]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z) - Learning Reward Machines in Cooperative Multi-Agent Tasks [75.79805204646428]
本稿では,MARL(Multi-Agent Reinforcement Learning)に対する新しいアプローチを提案する。
これは、協調的なタスク分解と、サブタスクの構造をコードする報酬機(RM)の学習を組み合わせる。
提案手法は、部分的に観測可能な環境下での報酬の非マルコフ的性質に対処するのに役立つ。
論文 参考訳(メタデータ) (2023-03-24T15:12:28Z) - Learning Roles with Emergent Social Value Orientations [49.16026283952117]
本稿では、人間社会における典型的な「労働・役割の分断」のメカニズムを紹介する。
我々は、社会的価値指向(SVO)を伴う時空間的社会的ジレンマ(ISD)に対する有望な解決策を提供する。
創発的SVOによる学習ロール(RESVO)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現に変換するために提案されている。
論文 参考訳(メタデータ) (2023-01-31T17:54:09Z) - The art of compensation: how hybrid teams solve collective risk dilemmas [6.081979963786028]
適応剤と固定行動剤を併用したハイブリッド集団における協調の進化的ダイナミクスについて検討した。
後者の振る舞いを補うために,まず,行動に適応することを学ぶ方法を示す。
論文 参考訳(メタデータ) (2022-05-13T13:23:42Z) - Birds of a Feather Flock Together: A Close Look at Cooperation Emergence
via Multi-Agent RL [20.22747008079794]
インセンティブ機構に起因する二階社会ジレンマのダイナミクスについて検討する。
ホモフィリーと呼ばれる人間の典型的な傾向は、この問題を解くことができる。
インセンティブ相同性を促進するための新しい学習枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:00:45Z) - Modelling Cooperation in Network Games with Spatio-Temporal Complexity [11.665246332943058]
複雑なグリッドワールドドメインにおける自己組織化協調の出現について検討する。
マルチエージェント深層強化学習を用いて,エージェント・ソサエティの多種多様なメカニズムをシミュレートした。
本手法は,人間および人工エージェントシステムにおける機構設計に影響を及ぼす。
論文 参考訳(メタデータ) (2021-02-13T12:04:52Z) - A game-theoretic analysis of networked system control for common-pool
resource management using multi-agent reinforcement learning [54.55119659523629]
マルチエージェント強化学習は近年,ネットワーク型システム制御へのアプローチとして大きな可能性を秘めている。
共通プールの資源は耕作可能な土地、淡水、湿地、野生生物、魚類資源、森林、大気である。
論文 参考訳(メタデータ) (2020-10-15T14:12:26Z) - Emergent cooperation through mutual information maximization [0.0]
協調型マルチエージェントシステムの設計のための分散型深層強化学習アルゴリズムを提案する。
このアルゴリズムは、高度に相関した行動が協調システムの特徴であるという仮説に基づいている。
エージェント間の相互情報の相互作用は、社会的ジレンマにおける協調の出現を促進すると結論付けている。
論文 参考訳(メタデータ) (2020-06-21T11:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。