論文の概要: Learning Roles with Emergent Social Value Orientations
- arxiv url: http://arxiv.org/abs/2301.13812v1
- Date: Tue, 31 Jan 2023 17:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 15:35:45.077419
- Title: Learning Roles with Emergent Social Value Orientations
- Title(参考訳): 創発的社会価値志向による役割学習
- Authors: Wenhao Li, Xiangfeng Wang, Bo Jin, Jingyi Lu and Hongyuan Zha
- Abstract要約: 本稿では、人間社会における典型的な「労働・役割の分断」のメカニズムを紹介する。
我々は、社会的価値指向(SVO)を伴う時空間的社会的ジレンマ(ISD)に対する有望な解決策を提供する。
創発的SVOによる学習ロール(RESVO)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現に変換するために提案されている。
- 参考スコア(独自算出の注目度): 49.16026283952117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social dilemmas can be considered situations where individual rationality
leads to collective irrationality. The multi-agent reinforcement learning
community has leveraged ideas from social science, such as social value
orientations (SVO), to solve social dilemmas in complex cooperative tasks. In
this paper, by first introducing the typical "division of labor or roles"
mechanism in human society, we provide a promising solution for intertemporal
social dilemmas (ISD) with SVOs. A novel learning framework, called Learning
Roles with Emergent SVOs (RESVO), is proposed to transform the learning of
roles into the social value orientation emergence, which is symmetrically
solved by endowing agents with altruism to share rewards with other agents. An
SVO-based role embedding space is then constructed by individual conditioning
policies on roles with a novel rank regularizer and mutual information
maximizer. Experiments show that RESVO achieves a stable division of labor and
cooperation in ISDs with different complexity.
- Abstract(参考訳): 社会的ジレンマは、個人の合理性が集団的不合理性をもたらす状況と見なすことができる。
マルチエージェント強化学習コミュニティは、複雑な協調作業における社会的ジレンマを解決するために、社会価値指向(SVO)のような社会科学のアイデアを活用している。
本稿では,まず,人間社会に典型的な「労働・役割の分割」機構を導入することで,svosを用いた時空間的社会ジレンマ(isd)に対する有望な解決法を提案する。
resvo(learning role with emergent svos)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現へと変換し、他のエージェントと報酬を共有するために利他性を持つエージェントによって対称的に解決される。
SVOベースのロール埋め込み空間は、新規なランク正規化器と相互情報最大化器を備えたロールに対する個別条件付けポリシーによって構成される。
実験により、RESVOは、複雑さの異なるISDにおける労働と協力の安定した分割を実現することが示された。
関連論文リスト
- Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - The State-Action-Reward-State-Action Algorithm in Spatial Prisoner's Dilemma Game [0.0]
強化学習は進化ゲーム理論の研究に適したフレームワークを提供する。
我々は、進化ゲーム理論における個人のための意思決定メカニズムとして、ステート・アクション・リワード・ステート・アクション・アルゴリズムを用いる。
我々は,SARSAが協力率に与える影響を,報酬の変動とネットワーク内の協調作業者や欠陥者の分布を分析して評価する。
論文 参考訳(メタデータ) (2024-06-25T07:21:35Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View [60.80731090755224]
本稿では,理論的洞察を用いた実用実験により,現代NLPシステム間の協調機構を解明する。
我々は, LLMエージェントからなる4つの独特な社会をつくり, それぞれのエージェントは, 特定の特性(容易性, 過信性)によって特徴づけられ, 異なる思考パターン(議論, ふりかえり)と協調する。
以上の結果から, LLMエージェントは, 社会心理学理論を反映した, 適合性やコンセンサスリーディングといった人間的な社会的行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-03T15:05:52Z) - Adaptive Coordination in Social Embodied Rearrangement [49.35582108902819]
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネート(ZSC)を研究する。
本稿では,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。
以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。
論文 参考訳(メタデータ) (2023-05-31T18:05:51Z) - Training Socially Aligned Language Models on Simulated Social
Interactions [99.39979111807388]
AIシステムにおける社会的アライメントは、確立された社会的価値に応じてこれらのモデルが振舞うことを保証することを目的としている。
現在の言語モデル(LM)は、トレーニングコーパスを独立して厳格に複製するように訓練されている。
本研究は,シミュレートされた社会的相互作用からLMを学習することのできる,新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-05-26T14:17:36Z) - Social Value Orientation and Integral Emotions in Multi-Agent Systems [1.5469452301122173]
人間の社会的行動は、個人の社会的嗜好の違いに影響を受けている。
社会的価値指向(SVO)は、測定可能な性格特性である。
統合的感情(英: Integral emotions)とは、意思決定のシナリオに対して直接反応する感情であり、意思決定の好みの一時的な変化と関連付けられている。
論文 参考訳(メタデータ) (2023-05-09T15:33:50Z) - Heterogeneous Social Value Orientation Leads to Meaningful Diversity in
Sequential Social Dilemmas [15.171556039829161]
社会的価値指向(Social Value Orientation、SVO)は、個人が自分と他人の間に資源を割り当てる確率を記述する。
以前の研究では、不均一なSVOが与えられたエージェントのグループは、囚人のジレンマのインセンティブ構造に似た設定で多様なポリシーを学ぶことが示されている。
これらの最良応答エージェントは、共プレイヤに条件付きポリシーを学習していることが、ゼロショット一般化結果の改善の理由であることを示す。
論文 参考訳(メタデータ) (2023-05-01T11:09:23Z) - The emergence of division of labor through decentralized social
sanctioning [13.35559831585528]
社会規範のモデルを導入することで、利己的な個人がすべての重要な役割を含む生産的な分業を学ぶことが可能になった。
このような社会的規範は、集団内で報酬を再分配し、反社会的役割を非活性化させ、一方で、内在的に報酬を払わない親社会的な役割を動機付けることで機能する。
論文 参考訳(メタデータ) (2022-08-10T21:35:38Z) - Improved cooperation by balancing exploration and exploitation in
intertemporal social dilemma tasks [2.541277269153809]
本研究では,探索と搾取のバランスをとることができる学習率を組み込むことで協調を達成するための新たな学習戦略を提案する。
簡単な戦略を駆使したエージェントは、時間的社会的ジレンマと呼ばれる意思決定タスクにおいて、相対的に集団的リターンを改善する。
また、学習率の多様性が強化学習エージェントの人口に与える影響についても検討し、異種集団で訓練されたエージェントが特に協調した政策を発達させることを示す。
論文 参考訳(メタデータ) (2021-10-19T08:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。