論文の概要: Tackling Asymmetric and Circular Sequential Social Dilemmas with
Reinforcement Learning and Graph-based Tit-for-Tat
- arxiv url: http://arxiv.org/abs/2206.12909v1
- Date: Sun, 26 Jun 2022 15:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 06:25:14.847597
- Title: Tackling Asymmetric and Circular Sequential Social Dilemmas with
Reinforcement Learning and Graph-based Tit-for-Tat
- Title(参考訳): 強化学習とグラフに基づくTit-for-Tatを用いた非対称および円周社会ジレンマの対応
- Authors: Tangui Le Gl\'eau, Xavier Marjou, Tayeb Lemlouma, Benoit Radier
- Abstract要約: 社会的ジレンマは、複数の俳優が最高の結果を達成するために協力すべき状況を提供するが、怒りと恐怖は最悪の自己関心の問題に繋がる。
近年、深層強化学習の出現は、逐次社会ジレンマ(SSD)の導入により、社会ジレンマへの関心が復活した。
本稿では,エージェント間の協調の多様性をより一般化する新しい種類のマルコフゲームであるCircular Sequential Social Dilemma (CSSD)を用いて,SSDを拡張した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In many societal and industrial interactions, participants generally prefer
their pure self-interest at the expense of the global welfare. Known as social
dilemmas, this category of non-cooperative games offers situations where
multiple actors should all cooperate to achieve the best outcome but greed and
fear lead to a worst self-interested issue. Recently, the emergence of Deep
Reinforcement Learning (RL) has generated revived interest in social dilemmas
with the introduction of Sequential Social Dilemma (SSD). Cooperative agents
mixing RL policies and Tit-for-tat (TFT) strategies have successfully addressed
some non-optimal Nash equilibrium issues. However, this kind of paradigm
requires symmetrical and direct cooperation between actors, conditions that are
not met when mutual cooperation become asymmetric and is possible only with at
least a third actor in a circular way. To tackle this issue, this paper extends
SSD with Circular Sequential Social Dilemma (CSSD), a new kind of Markov games
that better generalizes the diversity of cooperation between agents. Secondly,
to address such circular and asymmetric cooperation, we propose a candidate
solution based on RL policies and a graph-based TFT. We conducted some
experiments on a simple multi-player grid world which offers adaptable
cooperation structures. Our work confirmed that our graph-based approach is
beneficial to address circular situations by encouraging self-interested agents
to reach mutual cooperation.
- Abstract(参考訳): 多くの社会や産業の相互作用において、参加者は概して世界の福祉を犠牲にして純粋な自己利益を好む。
社会的ジレンマ(social dilemmas)として知られるこのカテゴリーの非協力ゲームは、複数の俳優が協力して最高の結果を達成するが、強欲と恐怖が最悪の自己利益の問題につながる状況を提供する。
近年, 深層強化学習 (RL) の出現は, 逐次社会ジレンマ (SSD) の導入により, 社会ジレンマへの関心が再燃している。
rl政策とtit-for-tat(tft)戦略を混合する協調エージェントは、非最適nash均衡問題にうまく対処している。
しかしながら、このようなパラダイムでは、相互協力が非対称になった場合の条件が満たされず、少なくとも3人目のアクターが円状にしかできないような、アクター間の対称的かつ直接的な協力が必要となる。
この問題に対処するため,本論文では,エージェント間の協調の多様性をより一般化する新しい種類のマルコフゲームであるCircular Sequential Social Dilemma (CSSD)を用いて,SSDを拡張した。
次に,そのような循環的かつ非対称的な協調に対処するために,rlポリシーとグラフベースのtftに基づく候補解を提案する。
我々は、適応的な協調構造を提供するシンプルなマルチプレイヤーグリッドの世界でいくつかの実験を行った。
我々の研究は、グラフに基づくアプローチが、自己関心のあるエージェントが相互に協力することを促すことによって、円周的な状況に対処する上で有益であることを確認した。
関連論文リスト
- Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - Principal-Agent Reinforcement Learning: Orchestrating AI Agents with Contracts [20.8288955218712]
本稿では,マルコフ決定プロセス(MDP)のエージェントを一連の契約でガイドするフレームワークを提案する。
我々は,主観とエージェントの方針を反復的に最適化するメタアルゴリズムを提示し,分析する。
次に,本アルゴリズムを深層Q-ラーニングで拡張し,近似誤差の存在下での収束度を解析する。
論文 参考訳(メタデータ) (2024-07-25T14:28:58Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - Adaptive Coordination in Social Embodied Rearrangement [49.35582108902819]
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネート(ZSC)を研究する。
本稿では,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。
以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。
論文 参考訳(メタデータ) (2023-05-31T18:05:51Z) - Learning Roles with Emergent Social Value Orientations [49.16026283952117]
本稿では、人間社会における典型的な「労働・役割の分断」のメカニズムを紹介する。
我々は、社会的価値指向(SVO)を伴う時空間的社会的ジレンマ(ISD)に対する有望な解決策を提供する。
創発的SVOによる学習ロール(RESVO)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現に変換するために提案されている。
論文 参考訳(メタデータ) (2023-01-31T17:54:09Z) - Provably Efficient Fictitious Play Policy Optimization for Zero-Sum
Markov Games with Structured Transitions [145.54544979467872]
本研究では,ゼロサムマルコフゲームに対して,構造的だが未知の遷移を伴う架空のプレイポリシー最適化アルゴリズムを提案し,解析する。
我々は、2年制の競争ゲームシナリオで、$K$のエピソードに続き、$widetildemathcalO(sqrtK)$ regret boundsを証明した。
提案アルゴリズムは,アッパー信頼境界(UCB)型最適化と,同時政策最適化の範囲内での架空のプレイの組み合わせを特徴とする。
論文 参考訳(メタデータ) (2022-07-25T18:29:16Z) - Normative Disagreement as a Challenge for Cooperative AI [56.34005280792013]
典型的な協調誘導学習アルゴリズムは、問題の解決に協力することができないと論じる。
我々は,ノルム適応政策のクラスを開発し,これらが協調性を著しく向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-27T11:37:42Z) - Birds of a Feather Flock Together: A Close Look at Cooperation Emergence
via Multi-Agent RL [20.22747008079794]
インセンティブ機構に起因する二階社会ジレンマのダイナミクスについて検討する。
ホモフィリーと呼ばれる人間の典型的な傾向は、この問題を解くことができる。
インセンティブ相同性を促進するための新しい学習枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:00:45Z) - Balancing Rational and Other-Regarding Preferences in
Cooperative-Competitive Environments [4.705291741591329]
混合環境は利己的で社会的利益の衝突で悪名高い。
個人と社会的インセンティブのバランスをとるBAROCCOを提案します。
メタアルゴリズムは、Qラーニングとアクタークリティカルの両方のフレームワークと互換性があります。
論文 参考訳(メタデータ) (2021-02-24T14:35:32Z) - Emergent Reciprocity and Team Formation from Randomized Uncertain Social
Preferences [8.10414043447031]
我々は,不確実な社会的嗜好(RUSP)をランダム化した訓練エージェントの創発的相互性,間接的相互性,評価,チーム形成の証拠を示す。
RUSPは汎用的でスケーラブルであり、元のゲームダイナミクスや目的を変更することなく、任意のマルチエージェント環境に適用することができる。
特に、RUSPではこれらの行動が出現し、より複雑な時間的環境において、Iterated Prisoner's Dilemmaのような古典的な抽象的社会ジレンマの社会福祉均衡をもたらすことが示される。
論文 参考訳(メタデータ) (2020-11-10T20:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。