論文の概要: Inducing Cooperative behaviour in Sequential-Social dilemmas through
Multi-Agent Reinforcement Learning using Status-Quo Loss
- arxiv url: http://arxiv.org/abs/2001.05458v2
- Date: Thu, 13 Feb 2020 09:55:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 06:05:32.197761
- Title: Inducing Cooperative behaviour in Sequential-Social dilemmas through
Multi-Agent Reinforcement Learning using Status-Quo Loss
- Title(参考訳): マルチエージェント強化学習による社会的ジレンマの協調行動の誘導
- Authors: Pinkesh Badjatiya, Mausoom Sarkar, Abhishek Sinha, Siddharth Singh,
Nikaash Puri, Jayakumar Subramanian, Balaji Krishnamurthy
- Abstract要約: 社会的ジレンマの状況では、個々人の合理性は準最適集団の結果をもたらす。
個人報酬を最適化するために訓練された深層強化学習エージェントは、利己的で相互に有害な行動に収束する。
いくつかのソーシャルジレンマ行列ゲームにおいて、SQLossで訓練されたエージェントが協調行動をどのように進化させるかを示す。
- 参考スコア(独自算出の注目度): 16.016452248865132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In social dilemma situations, individual rationality leads to sub-optimal
group outcomes. Several human engagements can be modeled as a sequential
(multi-step) social dilemmas. However, in contrast to humans, Deep
Reinforcement Learning agents trained to optimize individual rewards in
sequential social dilemmas converge to selfish, mutually harmful behavior. We
introduce a status-quo loss (SQLoss) that encourages an agent to stick to the
status quo, rather than repeatedly changing its policy. We show how agents
trained with SQLoss evolve cooperative behavior in several social dilemma
matrix games. To work with social dilemma games that have visual input, we
propose GameDistill. GameDistill uses self-supervision and clustering to
automatically extract cooperative and selfish policies from a social dilemma
game. We combine GameDistill and SQLoss to show how agents evolve socially
desirable cooperative behavior in the Coin Game.
- Abstract(参考訳): 社会的ジレンマの状況では、個々の合理性は最適群の結果をもたらす。
いくつかの人間との関わりは、シーケンシャル(多段階)な社会的ジレンマとしてモデル化できる。
しかし、人間とは対照的に、社会的ジレンマにおける個人の報酬を最適化するために訓練された深層強化学習エージェントは、利己的で相互に有害な行動に収束する。
我々は、エージェントが繰り返しポリシーを変更するのではなく、ステータスクオに固執することを奨励するステータスクオロス(SQLoss)を導入する。
いくつかのソーシャルジレンマ行列ゲームにおいて、SQLossで訓練されたエージェントが協調行動をどのように進化させるかを示す。
視覚入力を持つソーシャルジレンマゲームを扱うために,GameDistillを提案する。
GameDistillは自己スーパービジョンとクラスタリングを使用して、ソーシャルジレンマゲームから協力的および利己的なポリシーを自動的に抽出する。
我々はGameDistillとSQLossを組み合わせて、Coin Gameにおいてエージェントが社会的に望ましい協調行動をどのように進化させるかを示す。
関連論文リスト
- Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - Neural Population Learning beyond Symmetric Zero-sum Games [52.20454809055356]
我々はNuPL-JPSROという,スキルの伝達学習の恩恵を受けるニューラル集団学習アルゴリズムを導入し,ゲームの粗相関(CCE)に収束する。
本研究は, 均衡収束型集団学習を大規模かつ汎用的に実施可能であることを示す。
論文 参考訳(メタデータ) (2024-01-10T12:56:24Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は,競争行動の社会的影響に基づく新しい強化学習機構を提案する。
提案モデルでは, 人工エージェントの学習を調節するための競合スコアを導出するために, 客観的, 社会的認知的メカニズムを集約する。
論文 参考訳(メタデータ) (2022-08-22T14:06:06Z) - Tackling Asymmetric and Circular Sequential Social Dilemmas with
Reinforcement Learning and Graph-based Tit-for-Tat [0.0]
社会的ジレンマは、複数の俳優が最高の結果を達成するために協力すべき状況を提供するが、怒りと恐怖は最悪の自己関心の問題に繋がる。
近年、深層強化学習の出現は、逐次社会ジレンマ(SSD)の導入により、社会ジレンマへの関心が復活した。
本稿では,エージェント間の協調の多様性をより一般化する新しい種類のマルコフゲームであるCircular Sequential Social Dilemma (CSSD)を用いて,SSDを拡張した。
論文 参考訳(メタデータ) (2022-06-26T15:42:48Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - Cooperative Artificial Intelligence [0.0]
我々は,ゲーム理論と人工知能の交わりに関する研究の必要性を論じる。
本稿では,外部エージェントが人工学習者の協調を促進する方法について議論する。
また, 計画エージェントをオフにしても, 結果が一定のゲームにおいて安定であることを示す。
論文 参考訳(メタデータ) (2022-02-20T16:50:37Z) - Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。
本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。
Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文 参考訳(メタデータ) (2022-01-05T20:54:10Z) - Emergent Prosociality in Multi-Agent Games Through Gifting [14.943238230772264]
強化学習アルゴリズムは、複数の平衡が存在する場合、社会的に望まれない均衡に収束する。
我々は,より社会的に望ましい均衡に向けてエージェントを誘導する,制約の少ないピアリワード機構,ギフトの利用を提案する。
我々は、社会的均衡への収束における贈与の利点を捉えた理論的枠組みを用いる。
論文 参考訳(メタデータ) (2021-05-13T23:28:30Z) - Policy Fusion for Adaptive and Customizable Reinforcement Learning
Agents [137.86426963572214]
異なる行動政策を結合して有意義な「融合」政策を得る方法を示す。
事前学習されたポリシーを組み合わせるための4つの異なるポリシー融合手法を提案する。
これらの手法がゲーム制作や設計に実際どのように役立つのか,実例とユースケースをいくつか紹介する。
論文 参考訳(メタデータ) (2021-04-21T16:08:44Z) - Emergent Reciprocity and Team Formation from Randomized Uncertain Social
Preferences [8.10414043447031]
我々は,不確実な社会的嗜好(RUSP)をランダム化した訓練エージェントの創発的相互性,間接的相互性,評価,チーム形成の証拠を示す。
RUSPは汎用的でスケーラブルであり、元のゲームダイナミクスや目的を変更することなく、任意のマルチエージェント環境に適用することができる。
特に、RUSPではこれらの行動が出現し、より複雑な時間的環境において、Iterated Prisoner's Dilemmaのような古典的な抽象的社会ジレンマの社会福祉均衡をもたらすことが示される。
論文 参考訳(メタデータ) (2020-11-10T20:06:19Z) - Online Learning in Iterated Prisoner's Dilemma to Mimic Human Behavior [27.80555922579736]
In the Iterated Prisoner's Dilemma (IPD) game, we study the behaviors of online learning algorithm in the Iterated Prisoner's Dilemma (IPD) game。
我々は、複数のエージェントが連続的に競争できる、反復囚人ジレンマのトーナメントに基づいて、それらを評価する。
その結果,このような社会的ジレンマゲームでは,現在の意思決定状況を考えることが最悪であることが示唆された。
論文 参考訳(メタデータ) (2020-06-09T15:58:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。