論文の概要: Heterogeneous Social Value Orientation Leads to Meaningful Diversity in
Sequential Social Dilemmas
- arxiv url: http://arxiv.org/abs/2305.00768v1
- Date: Mon, 1 May 2023 11:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 13:33:44.118877
- Title: Heterogeneous Social Value Orientation Leads to Meaningful Diversity in
Sequential Social Dilemmas
- Title(参考訳): 不均一な社会的価値指向は、逐次社会的ジレンマにおける意味の多様性をもたらす
- Authors: Udari Madhushani, Kevin R. McKee, John P. Agapiou, Joel Z. Leibo,
Richard Everett, Thomas Anthony, Edward Hughes, Karl Tuyls, Edgar A.
Du\'e\~nez-Guzm\'an
- Abstract要約: 社会的価値指向(Social Value Orientation、SVO)は、個人が自分と他人の間に資源を割り当てる確率を記述する。
以前の研究では、不均一なSVOが与えられたエージェントのグループは、囚人のジレンマのインセンティブ構造に似た設定で多様なポリシーを学ぶことが示されている。
これらの最良応答エージェントは、共プレイヤに条件付きポリシーを学習していることが、ゼロショット一般化結果の改善の理由であることを示す。
- 参考スコア(独自算出の注目度): 15.171556039829161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In social psychology, Social Value Orientation (SVO) describes an
individual's propensity to allocate resources between themself and others. In
reinforcement learning, SVO has been instantiated as an intrinsic motivation
that remaps an agent's rewards based on particular target distributions of
group reward. Prior studies show that groups of agents endowed with
heterogeneous SVO learn diverse policies in settings that resemble the
incentive structure of Prisoner's dilemma. Our work extends this body of
results and demonstrates that (1) heterogeneous SVO leads to meaningfully
diverse policies across a range of incentive structures in sequential social
dilemmas, as measured by task-specific diversity metrics; and (2) learning a
best response to such policy diversity leads to better zero-shot generalization
in some situations. We show that these best-response agents learn policies that
are conditioned on their co-players, which we posit is the reason for improved
zero-shot generalization results.
- Abstract(参考訳): 社会心理学において、社会価値指向(Social Value Orientation、SVO)は、個人が自分と他人の間に資源を割り当てる適性を記述する。
強化学習において、SVOは、特定のグループ報酬の目標分布に基づいてエージェントの報酬を再マップする本質的な動機付けとしてインスタンス化されてきた。
以前の研究では、異質なsvoを持つエージェントのグループは、囚人のジレンマのインセンティブ構造に似た設定で多様なポリシーを学ぶことが示されている。
本研究は,(1)社会的ジレンマにおける多様なインセンティブ構造において,(1)不均質なsvoが有意義に多様な政策をもたらすこと,(2)これらの政策の多様性に対する最善の対応を学ぶことは,いくつかの状況においてより良いゼロショット一般化をもたらすことを実証する。
これらの最良応答エージェントは、共プレイヤに条件付きポリシーを学習していることが、ゼロショット一般化結果の改善の理由であることを示す。
関連論文リスト
- The State-Action-Reward-State-Action Algorithm in Spatial Prisoner's Dilemma Game [0.0]
強化学習は進化ゲーム理論の研究に適したフレームワークを提供する。
我々は、進化ゲーム理論における個人のための意思決定メカニズムとして、ステート・アクション・リワード・ステート・アクション・アルゴリズムを用いる。
我々は,SARSAが協力率に与える影響を,報酬の変動とネットワーク内の協調作業者や欠陥者の分布を分析して評価する。
論文 参考訳(メタデータ) (2024-06-25T07:21:35Z) - Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。
社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。
進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文 参考訳(メタデータ) (2024-01-09T15:44:44Z) - Social Value Orientation and Integral Emotions in Multi-Agent Systems [1.5469452301122173]
人間の社会的行動は、個人の社会的嗜好の違いに影響を受けている。
社会的価値指向(SVO)は、測定可能な性格特性である。
統合的感情(英: Integral emotions)とは、意思決定のシナリオに対して直接反応する感情であり、意思決定の好みの一時的な変化と関連付けられている。
論文 参考訳(メタデータ) (2023-05-09T15:33:50Z) - Stable Bias: Analyzing Societal Representations in Diffusion Models [72.27121528451528]
本稿では,テキスト・ツー・イメージ(TTI)システムにおける社会的バイアスを探索する新しい手法を提案する。
我々のアプローチは、プロンプト内の性別や民族のマーカーを列挙して生成された画像の変動を特徴づけることに依存している。
我々はこの手法を利用して3つのTTIシステムによって生成された画像を分析し、そのアウトプットが米国の労働人口層と相関しているのに対して、彼らは常に異なる範囲において、限界化されたアイデンティティを低く表現している。
論文 参考訳(メタデータ) (2023-03-20T19:32:49Z) - Learning Roles with Emergent Social Value Orientations [49.16026283952117]
本稿では、人間社会における典型的な「労働・役割の分断」のメカニズムを紹介する。
我々は、社会的価値指向(SVO)を伴う時空間的社会的ジレンマ(ISD)に対する有望な解決策を提供する。
創発的SVOによる学習ロール(RESVO)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現に変換するために提案されている。
論文 参考訳(メタデータ) (2023-01-31T17:54:09Z) - Social Diversity Reduces the Complexity and Cost of Fostering Fairness [63.70639083665108]
不完全な情報や公平性の柔軟な基準を前提とした干渉機構の効果について検討する。
多様性の役割を定量化し、情報収集の必要性を減らす方法を示す。
この結果から,多様性が変化し,公正性向上を目指す機関に新たなメカニズムが開放されることが示唆された。
論文 参考訳(メタデータ) (2022-11-18T21:58:35Z) - Learning Collective Action under Risk Diversity [68.88688248278102]
集団的リスクジレンマを演じることを学ぶエージェントのグループにおけるリスク多様性の結果について検討する。
リスクの多様性は、全体的な協力を著しく減らし、全体的な目標達成を妨げることを示す。
この結果から,エージェント間のリスク認識の整合性や新たな学習技術開発の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2022-01-30T18:21:21Z) - PCL: Peer-Contrastive Learning with Diverse Augmentations for
Unsupervised Sentence Embeddings [69.87899694963251]
本稿では,多彩な拡張を伴う新しいピアコントラスト学習(PCL)を提案する。
PCLは、教師なし文の埋め込みのために、グループレベルで様々な対照的な正と負を構成する。
PCLはピア陽性のコントラストとピアネットワークの協調が可能である。
論文 参考訳(メタデータ) (2022-01-28T13:02:41Z) - Improved cooperation by balancing exploration and exploitation in
intertemporal social dilemma tasks [2.541277269153809]
本研究では,探索と搾取のバランスをとることができる学習率を組み込むことで協調を達成するための新たな学習戦略を提案する。
簡単な戦略を駆使したエージェントは、時間的社会的ジレンマと呼ばれる意思決定タスクにおいて、相対的に集団的リターンを改善する。
また、学習率の多様性が強化学習エージェントの人口に与える影響についても検討し、異種集団で訓練されたエージェントが特に協調した政策を発達させることを示す。
論文 参考訳(メタデータ) (2021-10-19T08:40:56Z) - Social diversity and social preferences in mixed-motive reinforcement
learning [11.010593309447067]
混合動機ゲームにおける強化学習の研究は、主に同質なアプローチを活用している。
混合動機強化学習における集団の不均一性の影響について検討した。
論文 参考訳(メタデータ) (2020-02-06T16:07:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。