論文の概要: Improved cooperation by balancing exploration and exploitation in
intertemporal social dilemma tasks
- arxiv url: http://arxiv.org/abs/2111.09152v1
- Date: Tue, 19 Oct 2021 08:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-21 15:07:06.606530
- Title: Improved cooperation by balancing exploration and exploitation in
intertemporal social dilemma tasks
- Title(参考訳): 時間間社会ジレンマ課題における探索と搾取のバランスによる協力の改善
- Authors: Zhenbo Cheng, Xingguang Liu, Leilei Zhang, Hangcheng Meng, Qin Li,
Xiao Gang
- Abstract要約: 本研究では,探索と搾取のバランスをとることができる学習率を組み込むことで協調を達成するための新たな学習戦略を提案する。
簡単な戦略を駆使したエージェントは、時間的社会的ジレンマと呼ばれる意思決定タスクにおいて、相対的に集団的リターンを改善する。
また、学習率の多様性が強化学習エージェントの人口に与える影響についても検討し、異種集団で訓練されたエージェントが特に協調した政策を発達させることを示す。
- 参考スコア(独自算出の注目度): 2.541277269153809
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: When an individual's behavior has rational characteristics, this may lead to
irrational collective actions for the group. A wide range of organisms from
animals to humans often evolve the social attribute of cooperation to meet this
challenge. Therefore, cooperation among individuals is of great significance
for allowing social organisms to adapt to changes in the natural environment.
Based on multi-agent reinforcement learning, we propose a new learning strategy
for achieving coordination by incorporating a learning rate that can balance
exploration and exploitation. We demonstrate that agents that use the simple
strategy improve a relatively collective return in a decision task called the
intertemporal social dilemma, where the conflict between the individual and the
group is particularly sharp. We also explore the effects of the diversity of
learning rates on the population of reinforcement learning agents and show that
agents trained in heterogeneous populations develop particularly coordinated
policies relative to those trained in homogeneous populations.
- Abstract(参考訳): 個人の行動が合理的な特性を持つとき、これは集団に対する不合理な集団行動につながる可能性がある。
動物から人間まで幅広い生物が、この課題を満たすために協力の社会的特性を進化させる。
したがって、社会生物が自然環境の変化に適応できるようにする上で、個人間の協力は非常に重要である。
マルチエージェント強化学習に基づいて,探索と搾取のバランスをとる学習率を組み込むことで協調を実現するための新しい学習戦略を提案する。
簡単な戦略を用いたエージェントは、時間的社会的ジレンマと呼ばれる決定タスクにおいて、個人とグループの対立が特に鋭い場合において、相対的に集団的リターンを改善することを実証する。
また,強化学習エージェントの集団に対する学習率の多様性の影響を考察し,異種集団で訓練されたエージェントが,均質集団で訓練されたエージェントと比較して,特に協調した政策を展開することを示した。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - Enhancing Cooperation through Selective Interaction and Long-term Experiences in Multi-Agent Reinforcement Learning [10.932974027102619]
本研究では,空間的囚人のジレンマゲームにおけるマルチエージェント強化学習に基づく計算フレームワークを提案する。
2つの異なるQ-ネットを用いて各エージェントをモデル化することにより、協調と相互作用の共進化ダイナミクスを解き放つ。
論文 参考訳(メタデータ) (2024-05-04T12:42:55Z) - Dynamics of Moral Behavior in Heterogeneous Populations of Learning Agents [3.7414804164475983]
本研究では、道徳的に異質な集団が社会的ジレンマ環境で相互作用する学習力学について研究する。
我々は、親社会と反社会的エージェント間のいくつかの非自明な相互作用を観察する。
ある種の道徳的エージェントは、より協調的な行動に向けて利己的なエージェントを操ることができる。
論文 参考訳(メタデータ) (2024-03-07T04:12:24Z) - Adaptive Coordination in Social Embodied Rearrangement [49.35582108902819]
本研究では,エージェントが新しいパートナーと協力し,ロボットが新しいパートナーと協力するシナリオをエミュレートする作業において,ゼロショットコーディネート(ZSC)を研究する。
本稿では,識別可能性の目的を通じて多様性を促進する新しいZSCアプローチである行動多様性プレイ(BDP)を提案する。
以上の結果から,BDPは視覚的コーディネーションに対処可能な適応エージェントを学習し,ゼロショットは未確認環境において新たなパートナーに一般化し,ベースラインに比べて35%,効率が32%向上した。
論文 参考訳(メタデータ) (2023-05-31T18:05:51Z) - Learning Roles with Emergent Social Value Orientations [49.16026283952117]
本稿では、人間社会における典型的な「労働・役割の分断」のメカニズムを紹介する。
我々は、社会的価値指向(SVO)を伴う時空間的社会的ジレンマ(ISD)に対する有望な解決策を提供する。
創発的SVOによる学習ロール(RESVO)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現に変換するために提案されている。
論文 参考訳(メタデータ) (2023-01-31T17:54:09Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
グループは、個人が他人の成功から学べるときにより効果的にコーディネートする。
社会的推論能力は、このギャップを埋める助けとなり、個人が他人の基本的な知識に対する信念を更新し、観察可能な行動軌跡から成功することを示唆する。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Intrinsic fluctuations of reinforcement learning promote cooperation [0.0]
社会的ジレンマの状況における協力は、動物、人間、機械にとって不可欠である。
マルチエージェント・ラーニング・セッティングの個々の要素が協調にどのように寄与するかを実証する。
論文 参考訳(メタデータ) (2022-09-01T09:14:47Z) - The art of compensation: how hybrid teams solve collective risk dilemmas [6.081979963786028]
適応剤と固定行動剤を併用したハイブリッド集団における協調の進化的ダイナミクスについて検討した。
後者の振る舞いを補うために,まず,行動に適応することを学ぶ方法を示す。
論文 参考訳(メタデータ) (2022-05-13T13:23:42Z) - Learning Collective Action under Risk Diversity [68.88688248278102]
集団的リスクジレンマを演じることを学ぶエージェントのグループにおけるリスク多様性の結果について検討する。
リスクの多様性は、全体的な協力を著しく減らし、全体的な目標達成を妨げることを示す。
この結果から,エージェント間のリスク認識の整合性や新たな学習技術開発の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2022-01-30T18:21:21Z) - Deep reinforcement learning models the emergent dynamics of human
cooperation [13.425401489679583]
実験では、社会的認知メカニズムが集団行動の場所と時期にどのように貢献するかを明かすことができなかった。
我々は,多エージェントの深層強化学習を活用し,社会認知メカニズム,特に,評価の高い集団行動を達成するための本質的な動機をモデル化する。
論文 参考訳(メタデータ) (2021-03-08T18:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。