論文の概要: Using deep reinforcement learning to promote sustainable human behaviour on a common pool resource problem
- arxiv url: http://arxiv.org/abs/2404.15059v1
- Date: Tue, 23 Apr 2024 14:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:42:03.365018
- Title: Using deep reinforcement learning to promote sustainable human behaviour on a common pool resource problem
- Title(参考訳): 深層強化学習を用いた共通プール資源問題における持続的人間行動の促進
- Authors: Raphael Koster, Miruna Pîslar, Andrea Tacchetti, Jan Balaguer, Leqi Liu, Romuald Elie, Oliver P. Hauser, Karl Tuyls, Matt Botvinick, Christopher Summerfield,
- Abstract要約: 本研究では,人間によるプールリソースへの持続的貢献を促進するアロケーション機構を設計する。
深層強化学習は、持続可能な人間の行動を促進するメカニズムを発見するために用いられる。
- 参考スコア(独自算出の注目度): 14.272912268098375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A canonical social dilemma arises when finite resources are allocated to a group of people, who can choose to either reciprocate with interest, or keep the proceeds for themselves. What resource allocation mechanisms will encourage levels of reciprocation that sustain the commons? Here, in an iterated multiplayer trust game, we use deep reinforcement learning (RL) to design an allocation mechanism that endogenously promotes sustainable contributions from human participants to a common pool resource. We first trained neural networks to behave like human players, creating a stimulated economy that allowed us to study how different mechanisms influenced the dynamics of receipt and reciprocation. We then used RL to train a social planner to maximise aggregate return to players. The social planner discovered a redistributive policy that led to a large surplus and an inclusive economy, in which players made roughly equal gains. The RL agent increased human surplus over baseline mechanisms based on unrestricted welfare or conditional cooperation, by conditioning its generosity on available resources and temporarily sanctioning defectors by allocating fewer resources to them. Examining the AI policy allowed us to develop an explainable mechanism that performed similarly and was more popular among players. Deep reinforcement learning can be used to discover mechanisms that promote sustainable human behaviour.
- Abstract(参考訳): 標準的な社会的ジレンマは、有限資源が利害関係で互恵するか、利益を自分たちで維持するかを選択することができる人々のグループに割り当てられるときに生じる。
資源割り当てメカニズムは、コモンズを維持できる相反のレベルを促進するのか?
ここでは,マルチプレイヤー・トラストゲームにおいて,人間から共通のプールリソースへの持続的コントリビューションを不均一に促進するアロケーション機構を設計するために,深層強化学習(RL)を用いる。
私たちはまず、人間のプレイヤーのように振る舞うようにニューラルネットワークを訓練し、異なるメカニズムがレセプションと往復のダイナミクスにどのように影響するかを研究できるように刺激された経済を生み出しました。
次に、RLを使用してソーシャルプランナーをトレーニングし、プレイヤーへの集合戻りを最大化する。
ソーシャルプランナーは、大きな余剰と包括的経済に繋がる再分配政策を発見し、プレイヤーは概ね同等の利益を得た。
RL剤は、利用可能な資源に寛大さを条件付け、不足者を一時的に制裁することで、制限のない福祉や条件付協力に基づくベースライン機構に対する人的余剰を増大させた。
AIポリシーを理解することで、同様に機能し、プレイヤーの間でより人気があった説明可能なメカニズムを開発することができました。
深層強化学習は、持続可能な人間の行動を促進するメカニズムを発見するために用いられる。
関連論文リスト
- Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - The State-Action-Reward-State-Action Algorithm in Spatial Prisoner's Dilemma Game [0.0]
強化学習は進化ゲーム理論の研究に適したフレームワークを提供する。
我々は、進化ゲーム理論における個人のための意思決定メカニズムとして、ステート・アクション・リワード・ステート・アクション・アルゴリズムを用いる。
我々は,SARSAが協力率に与える影響を,報酬の変動とネットワーク内の協調作業者や欠陥者の分布を分析して評価する。
論文 参考訳(メタデータ) (2024-06-25T07:21:35Z) - Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL [4.969697978555126]
マルチエージェント強化学習(MARL)は、共通の環境で独立して行動する自律エージェントを訓練するための強力なツールである。
MARLは、個人インセンティブとグループインセンティブが多様化する際の準最適行動を引き起こす。
本稿では,事前に規定された条件下で,エージェントが自発的に報酬の束縛に同意するマルコフゲームの拡張を提案する。
論文 参考訳(メタデータ) (2022-08-22T17:42:03Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement
Learning Approach [130.9259586568977]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Multi-Principal Assistance Games: Definition and Collegial Mechanisms [16.491889275389457]
マルチプリンシパルアシスタンスゲーム(MPAG)の概念を紹介します。
MPAGでは、1つのエージェントが、広く異なる嗜好を持つ可能性のあるN人のヒトのプリンシパルを支援する。
特に見習い学習の一般化について分析し,人間は実用性を得るために最初にいくつかの作業を行い,その嗜好を実証する。
論文 参考訳(メタデータ) (2020-12-29T00:06:47Z) - Coordinated Online Learning for Multi-Agent Systems with Coupled
Constraints and Perturbed Utility Observations [91.02019381927236]
本研究では, 資源制約を満たすため, エージェントを安定な集団状態へ誘導する新しい手法を提案する。
提案手法は,ゲームラグランジアンの拡張によるリソース負荷に基づく分散リソース価格設定手法である。
論文 参考訳(メタデータ) (2020-10-21T10:11:17Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z) - Multi-Principal Assistance Games [11.85513759444069]
社会的選択論や投票理論における不合理性定理はそのようなゲームに適用できる。
我々は特に、人間がまず腕の好みを示すために行動するバンディットの見習いゲームを分析する。
本稿では,選好推論と社会福祉最適化を組み合わせるために,システムの共有制御を用いた社会的選択手法を提案する。
論文 参考訳(メタデータ) (2020-07-19T00:23:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。