論文の概要: The State-Action-Reward-State-Action Algorithm in Spatial Prisoner's Dilemma Game
- arxiv url: http://arxiv.org/abs/2406.17326v1
- Date: Tue, 25 Jun 2024 07:21:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 15:21:33.656933
- Title: The State-Action-Reward-State-Action Algorithm in Spatial Prisoner's Dilemma Game
- Title(参考訳): 空間囚人のジレンマゲームにおける状態-反状態-状態-反応アルゴリズム
- Authors: Lanyu Yang, Dongchun Jiang, Fuqiang Guo, Mingjian Fu,
- Abstract要約: 強化学習は進化ゲーム理論の研究に適したフレームワークを提供する。
我々は、進化ゲーム理論における個人のための意思決定メカニズムとして、ステート・アクション・リワード・ステート・アクション・アルゴリズムを用いる。
我々は,SARSAが協力率に与える影響を,報酬の変動とネットワーク内の協調作業者や欠陥者の分布を分析して評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative behavior is prevalent in both human society and nature. Understanding the emergence and maintenance of cooperation among self-interested individuals remains a significant challenge in evolutionary biology and social sciences. Reinforcement learning (RL) provides a suitable framework for studying evolutionary game theory as it can adapt to environmental changes and maximize expected benefits. In this study, we employ the State-Action-Reward-State-Action (SARSA) algorithm as the decision-making mechanism for individuals in evolutionary game theory. Initially, we apply SARSA to imitation learning, where agents select neighbors to imitate based on rewards. This approach allows us to observe behavioral changes in agents without independent decision-making abilities. Subsequently, SARSA is utilized for primary agents to independently choose cooperation or betrayal with their neighbors. We evaluate the impact of SARSA on cooperation rates by analyzing variations in rewards and the distribution of cooperators and defectors within the network.
- Abstract(参考訳): 協調行動は、人間社会と自然の両方で一般的である。
自己関心の個人間の協力の出現と維持を理解することは、進化生物学や社会科学において重要な課題である。
強化学習(Reinforcement Learning, RL)は、環境変化に適応し、期待される利益を最大化できる進化ゲーム理論の研究に適したフレームワークを提供する。
本研究では、進化ゲーム理論における個人のための意思決定メカニズムとして、ステート・アクション・リワード・ステート・アクション(SARSA)アルゴリズムを用いる。
まず、SARSAを模倣学習に適用し、エージェントは報酬に基づいて隣人を選択して模倣する。
このアプローチは,独立した意思決定能力を持たないエージェントの行動変化を観察することを可能にする。
その後、SARSAは、プライマリエージェントが隣人との協力や裏切りを独立に選択するために利用される。
我々は,SARSAが協力率に与える影響を,報酬の変動とネットワーク内の協調作業者や欠陥者の分布を分析して評価する。
関連論文リスト
- Bias Mitigation via Compensation: A Reinforcement Learning Perspective [1.5442389863546546]
グループダイナミクスは、あるエージェント(例えば、AIシステム)が別のエージェント(例えば、人間)のバイアスとエラーを補う必要があるかもしれない。
ゲーム理論と強化学習原理を合成するアルゴリズム補償のための理論的枠組みを提供する。
この研究は、AIエージェントが他のエージェントのバイアスや行動に適応すべき条件の倫理的分析の基礎となる。
論文 参考訳(メタデータ) (2024-04-30T04:41:47Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Learning Roles with Emergent Social Value Orientations [49.16026283952117]
本稿では、人間社会における典型的な「労働・役割の分断」のメカニズムを紹介する。
我々は、社会的価値指向(SVO)を伴う時空間的社会的ジレンマ(ISD)に対する有望な解決策を提供する。
創発的SVOによる学習ロール(RESVO)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現に変換するために提案されている。
論文 参考訳(メタデータ) (2023-01-31T17:54:09Z) - On Blockchain We Cooperate: An Evolutionary Game Perspective [0.8566457170664925]
本稿では,合理性とゲーム理論的解の概念を導入し,コンセンサスプロトコルの平衡結果について検討する。
モデルエージェントの挙動に有界有理性を適用し、3つの異なる安定平衡に対する初期条件を解く。
我々の研究は、コンピュータサイエンスにおける分散コンセンサス、ブロックチェーンコンセンサスにおける経済ゲーム理論、生物学と経済学の交差点における進化ゲーム理論、コンピューティングと社会科学に関する共同洞察による協調AIなど、分野にわたる文献に貢献する。
論文 参考訳(メタデータ) (2022-12-10T19:56:10Z) - Incorporating Rivalry in Reinforcement Learning for a Competitive Game [65.2200847818153]
本研究は,競争行動の社会的影響に基づく新しい強化学習機構を提案する。
提案モデルでは, 人工エージェントの学習を調節するための競合スコアを導出するために, 客観的, 社会的認知的メカニズムを集約する。
論文 参考訳(メタデータ) (2022-08-22T14:06:06Z) - Improved cooperation by balancing exploration and exploitation in
intertemporal social dilemma tasks [2.541277269153809]
本研究では,探索と搾取のバランスをとることができる学習率を組み込むことで協調を達成するための新たな学習戦略を提案する。
簡単な戦略を駆使したエージェントは、時間的社会的ジレンマと呼ばれる意思決定タスクにおいて、相対的に集団的リターンを改善する。
また、学習率の多様性が強化学習エージェントの人口に与える影響についても検討し、異種集団で訓練されたエージェントが特に協調した政策を発達させることを示す。
論文 参考訳(メタデータ) (2021-10-19T08:40:56Z) - Birds of a Feather Flock Together: A Close Look at Cooperation Emergence
via Multi-Agent RL [20.22747008079794]
インセンティブ機構に起因する二階社会ジレンマのダイナミクスについて検討する。
ホモフィリーと呼ばれる人間の典型的な傾向は、この問題を解くことができる。
インセンティブ相同性を促進するための新しい学習枠組みを提案する。
論文 参考訳(メタデータ) (2021-04-23T08:00:45Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z) - Cooperative Inverse Reinforcement Learning [64.60722062217417]
協調強化学習(CIRL)としての値アライメント問題の形式的定義を提案する。
CIRL問題は、人間とロボットの2人のエージェントによる協調的部分情報ゲームであり、どちらも人間の報酬関数に従って報酬を受けるが、ロボットは当初それが何であるかを知らない。
古典的なIRLとは対照的に、人間は孤立して最適な行動をとると仮定されるが、最適なCIRLソリューションは活発な教育、活発な学習、コミュニケーション行動などの行動を生み出す。
論文 参考訳(メタデータ) (2016-06-09T22:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。