論文の概要: Emergent Reciprocity and Team Formation from Randomized Uncertain Social
Preferences
- arxiv url: http://arxiv.org/abs/2011.05373v1
- Date: Tue, 10 Nov 2020 20:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:04:37.760623
- Title: Emergent Reciprocity and Team Formation from Randomized Uncertain Social
Preferences
- Title(参考訳): ランダム化された不確定な社会的選好からの創発的相互性とチーム形成
- Authors: Bowen Baker
- Abstract要約: 我々は,不確実な社会的嗜好(RUSP)をランダム化した訓練エージェントの創発的相互性,間接的相互性,評価,チーム形成の証拠を示す。
RUSPは汎用的でスケーラブルであり、元のゲームダイナミクスや目的を変更することなく、任意のマルチエージェント環境に適用することができる。
特に、RUSPではこれらの行動が出現し、より複雑な時間的環境において、Iterated Prisoner's Dilemmaのような古典的な抽象的社会ジレンマの社会福祉均衡をもたらすことが示される。
- 参考スコア(独自算出の注目度): 8.10414043447031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) has shown recent success in
increasingly complex fixed-team zero-sum environments. However, the real world
is not zero-sum nor does it have fixed teams; humans face numerous social
dilemmas and must learn when to cooperate and when to compete. To successfully
deploy agents into the human world, it may be important that they be able to
understand and help in our conflicts. Unfortunately, selfish MARL agents
typically fail when faced with social dilemmas. In this work, we show evidence
of emergent direct reciprocity, indirect reciprocity and reputation, and team
formation when training agents with randomized uncertain social preferences
(RUSP), a novel environment augmentation that expands the distribution of
environments agents play in. RUSP is generic and scalable; it can be applied to
any multi-agent environment without changing the original underlying game
dynamics or objectives. In particular, we show that with RUSP these behaviors
can emerge and lead to higher social welfare equilibria in both classic
abstract social dilemmas like Iterated Prisoner's Dilemma as well in more
complex intertemporal environments.
- Abstract(参考訳): マルチエージェント強化学習(MARL)は、ますます複雑な固定チームゼロサム環境において、近年成功している。
しかし、現実世界はゼロサムでも固定チームでもない。人間は多くの社会的ジレンマに直面し、いつ協力し、いつ競争するかを学ぶ必要がある。
エージェントを人間の世界にうまく配置するには、彼らが私たちの紛争を理解し、支援できることが重要だ。
残念ながら、利己的なMARLエージェントは通常、社会的ジレンマに直面して失敗します。
本研究では,無作為化された不確定な社会的選好(rusp)を持つエージェントの学習において,創発的な直接的な相互関係,間接的な相互性と評判,チーム形成の証拠を示す。
RUSPは汎用的でスケーラブルであり、元のゲームダイナミクスや目的を変更することなく、任意のマルチエージェント環境に適用することができる。
特に、RUSPではこれらの行動が出現し、より複雑な時間的環境において、Iterated Prisoner's Dilemmaのような古典的な抽象的社会ジレンマの社会福祉均衡をもたらすことが示される。
関連論文リスト
- Artificial Leviathan: Exploring Social Evolution of LLM Agents Through the Lens of Hobbesian Social Contract Theory [8.80864059602965]
大規模言語モデル(LLM)と人工知能(AI)の進歩は、大規模に計算社会科学研究の機会を提供する。
我々の研究は、複雑な社会的関係が動的に形成され、時間とともに進化するシミュレーションエージェント・ソサイエティを導入している。
我々は、この理論が仮定しているように、エージェントが秩序と安全保障と引き換えに絶対的な主権を放棄することで、残酷な「自然の状態」から逃れようとするかどうかを分析する。
論文 参考訳(メタデータ) (2024-06-20T14:42:58Z) - SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - Agent Alignment in Evolving Social Norms [65.45423591744434]
本稿では,エージェント進化とアライメントのための進化的フレームワークであるEvolutionaryAgentを提案する。
社会規範が継続的に進化する環境では、エージェントは現在の社会規範に適応し、生存と増殖の確率が高くなる。
進化的エージェントは、一般的なタスクにおいてその能力を維持しながら、進化する社会規範と徐々に整合できることを示す。
論文 参考訳(メタデータ) (2024-01-09T15:44:44Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - Understanding the World to Solve Social Dilemmas Using Multi-Agent
Reinforcement Learning [0.7161783472741748]
マルチエージェント強化学習環境で世界モデルを学ぶ自己関心有理エージェントの行動について検討する。
シミュレーションの結果,社会的ジレンマが生じるシナリオを扱う場合,世界モデルによって支えられたエージェントのグループは,他のテストされたエージェントよりも優れていた。
論文 参考訳(メタデータ) (2023-05-19T00:31:26Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - Exploring the Impact of Tunable Agents in Sequential Social Dilemmas [0.0]
我々は多目的強化学習を活用して調整可能なエージェントを作成する。
この手法を逐次社会的ジレンマに適用する。
調整可能なエージェント・フレームワークは協調行動と競争行動の容易な適応を可能にすることを実証する。
論文 参考訳(メタデータ) (2021-01-28T12:44:31Z) - Emergent Complexity and Zero-shot Transfer via Unsupervised Environment
Design [121.73425076217471]
本研究では,未知のパラメータを持つ環境を提供するUnsupervised Environment Design (UED)を提案する。
プロタゴニスト・アンタゴニストによるレグレト環境デザイン(PAIRED)と呼ぶ。
実験により, PAIREDは複雑な環境の自然なカリキュラムを生産し, PAIREDエージェントは, 高度に新規な環境での試験において, 高いゼロショット転送性能が得られることを示した。
論文 参考訳(メタデータ) (2020-12-03T17:37:01Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。