論文の概要: Dilution, Diffusion and Symbiosis in Spatial Prisoner's Dilemma with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2507.02211v1
- Date: Thu, 03 Jul 2025 00:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.377595
- Title: Dilution, Diffusion and Symbiosis in Spatial Prisoner's Dilemma with Reinforcement Learning
- Title(参考訳): 強化学習を伴う空間的囚人ジレンマにおける希釈・拡散・共生
- Authors: Gustavo C. Mangold, Heitor C. M. Fernandes, Mendeli H. Vainstein,
- Abstract要約: 囚人ジレンマの空間バージョンにおける希釈と移動性の影響について検討した。
一定の更新ルールを持つゲームは、学習したゲームと質的に同等であることを示す証拠を含む、さまざまな効果が観察される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in the spatial prisoner's dilemma games with reinforcement learning have shown that static agents can learn to cooperate through a diverse sort of mechanisms, including noise injection, different types of learning algorithms and neighbours' payoff knowledge.In this work, using an independent multi-agent Q-learning algorithm, we study the effects of dilution and mobility in the spatial version of the prisoner's dilemma. Within this setting, different possible actions for the algorithm are defined, connecting with previous results on the classical, non-reinforcement learning spatial prisoner's dilemma, showcasing the versatility of the algorithm in modeling different game-theoretical scenarios and the benchmarking potential of this approach.As a result, a range of effects is observed, including evidence that games with fixed update rules can be qualitatively equivalent to those with learned ones, as well as the emergence of a symbiotic mutualistic effect between populations that forms when multiple actions are defined.
- Abstract(参考訳): 近年、強化学習による空間的囚人のジレンマゲームにおいて、静的エージェントは、ノイズ注入、異なる種類の学習アルゴリズム、近隣住民のペイオフ知識などの様々なメカニズムを通じて協調して学習できることが示されており、この研究は、独立したマルチエージェントQ-ラーニングアルゴリズムを用いて、囚人のジレンマの空間的バージョンにおける希釈とモビリティの影響について研究している。
この設定内では、従来の非強化学習空間囚人のジレンマにおいて、異なるゲーム理論シナリオのモデリングにおけるアルゴリズムの汎用性とこのアプローチのベンチマーク可能性を示す、異なる可能なアクションが定義され、結果として、固定された更新ルールを持つゲームが学習したゲームと質的に同等であることを示す証拠や、複数のアクションが定義された時に形成される集団間の共生的相互主義効果の出現を含む、様々な効果が観察される。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Regularized Neural Ensemblers [55.15643209328513]
本研究では,正規化ニューラルネットワークをアンサンブル手法として活用することを検討する。
低多様性のアンサンブルを学習するリスクを動機として,ランダムにベースモデル予測をドロップすることで,アンサンブルモデルの正規化を提案する。
このアプローチはアンサンブル内の多様性の低い境界を提供し、過度な適合を減らし、一般化能力を向上させる。
論文 参考訳(メタデータ) (2024-10-06T15:25:39Z) - Mutation-Bias Learning in Games [1.743685428161914]
本稿では,進化ゲーム理論に基づくマルチエージェント強化学習アルゴリズムの2つの変種について述べる。
1つの変種は、レプリケータ・ミューテータ力学系の常微分方程式系との関係を証明できる。
より複雑なバリエーションは、Q-ラーニングベースのアルゴリズムとの比較を可能にする。
論文 参考訳(メタデータ) (2024-05-28T14:02:44Z) - Multi-Agent Bandit Learning through Heterogeneous Action Erasure Channels [21.860440468189044]
Multi-Armed Bandit (MAB) システムはマルチエージェント分散環境におけるアプリケーションの増加を目撃している。
このような設定では、アクションを実行するエージェントと、意思決定を行う一次学習者とのコミュニケーションは、学習プロセスを妨げる可能性がある。
本研究では,学習者が異種行動消去チャネルをまたいで分散エージェントと並列に対話できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-21T19:21:19Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Consistency and Diversity induced Human Motion Segmentation [231.36289425663702]
本稿では,CDMS(Consistency and Diversity induced Human Motion)アルゴリズムを提案する。
我々のモデルは、ソースとターゲットデータを異なる多層特徴空間に分解する。
ソースとターゲットデータ間の領域ギャップを低減するために、マルチミューチュアル学習戦略を実行する。
論文 参考訳(メタデータ) (2022-02-10T06:23:56Z) - Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning [0.06554326244334865]
分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実とのギャップを埋める方法について分析する。
分散強化学習におけるセンサ,キャリブレーション,精度のミスマッチの効果について紹介する。
異なる種類の摂動と、それらの摂動を経験するエージェントの数の両方が協調学習活動にどのように影響するかについて論じる。
論文 参考訳(メタデータ) (2020-08-18T11:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。