論文の概要: Cooperation and Reputation Dynamics with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.07523v1
- Date: Mon, 15 Feb 2021 12:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:29:54.964573
- Title: Cooperation and Reputation Dynamics with Reinforcement Learning
- Title(参考訳): 強化学習による協調と意見のダイナミクス
- Authors: Nicolas Anastassacos, Julian Garc\'ia, Stephen Hailes, Mirco Musolesi
- Abstract要約: 私達は信頼および協同を確立する方法として評判がいかに使用されるか示します。
好ましくない平衡への収束を緩和する2つのメカニズムを提案する。
この結果が進化ゲーム理論の文献とどのように関係しているかを示す。
- 参考スコア(独自算出の注目度): 6.219565750197311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating incentives for cooperation is a challenge in natural and artificial
systems. One potential answer is reputation, whereby agents trade the immediate
cost of cooperation for the future benefits of having a good reputation. Game
theoretical models have shown that specific social norms can make cooperation
stable, but how agents can independently learn to establish effective
reputation mechanisms on their own is less understood. We use a simple model of
reinforcement learning to show that reputation mechanisms generate two
coordination problems: agents need to learn how to coordinate on the meaning of
existing reputations and collectively agree on a social norm to assign
reputations to others based on their behavior. These coordination problems
exhibit multiple equilibria, some of which effectively establish cooperation.
When we train agents with a standard Q-learning algorithm in an environment
with the presence of reputation mechanisms, convergence to undesirable
equilibria is widespread. We propose two mechanisms to alleviate this: (i)
seeding a proportion of the system with fixed agents that steer others towards
good equilibria; and (ii), intrinsic rewards based on the idea of
introspection, i.e., augmenting agents' rewards by an amount proportionate to
the performance of their own strategy against themselves. A combination of
these simple mechanisms is successful in stabilizing cooperation, even in a
fully decentralized version of the problem where agents learn to use and assign
reputations simultaneously. We show how our results relate to the literature in
Evolutionary Game Theory, and discuss implications for artificial, human and
hybrid systems, where reputations can be used as a way to establish trust and
cooperation.
- Abstract(参考訳): 協力のためのインセンティブを作成することは、自然および人工システムにおける課題です。
一つの潜在的な答えは評判であり、エージェントは評判の良い将来の利益のためにすぐに協力するコストを取引する。
ゲーム理論モデルでは、特定の社会規範が協力を安定させることが示されていますが、エージェントが単独で効果的な評判メカニズムを確立するために独立して学ぶ方法はあまり理解されていません。
エージェントは既存の評判の意味をコーディネートする方法を学び、その行動に基づいて他の人に評判を割り当てるために社会的規範に集合的に合意する必要があります。
これらのコーディネーション問題は複数の平衡を示し、その一部は効果的に協調を確立する。
評価機構が存在する環境において,標準q学習アルゴリズムを用いてエージェントを訓練する場合,望ましくない平衡への収束が広く行われる。
これを緩和するための2つのメカニズムを提案する: (i) 他者を良い平衡に向かって誘導する固定エージェントとシステムの割合を播種すること; (ii) 内省の考え方に基づく本質的な報酬、すなわち、自分自身に対する自身の戦略の実行に比例する量でエージェントの報酬を高めること。
これらの単純なメカニズムの組み合わせは、エージェントが同時に使用し、評価を割り当てることを学ぶ問題の完全な分散バージョンであっても、協力の安定化に成功している。
この結果が進化ゲーム理論の文献とどのように関連しているかを示し,信頼と協力を確立する方法として評価を活用できる人工的,人間的,ハイブリッドシステムへの示唆について論じる。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - Emergent Cooperation under Uncertain Incentive Alignment [7.906156032228933]
頻繁な出会いを特徴とするシナリオにおける強化学習エージェント間の協力関係について検討する。
本研究では,複合モチベーション環境における協調を促進するために文献で提案されている評価や本質的な報酬などのメカニズムの効果について検討する。
論文 参考訳(メタデータ) (2024-01-23T10:55:54Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Investigating the Impact of Direct Punishment on the Emergence of Cooperation in Multi-Agent Reinforcement Learning Systems [2.4555276449137042]
協力の問題は、人間社会の中で一様である。
AIの利用が社会全体に広まるにつれ、社会的にインテリジェントなエージェントの必要性がますます明白になりつつある。
本稿では, 直接罰, 第三者罰, パートナー選択, 評判に関連する行動と学習のダイナミクスを包括的に分析し, 評価する。
論文 参考訳(メタデータ) (2023-01-19T19:33:54Z) - The art of compensation: how hybrid teams solve collective risk dilemmas [6.081979963786028]
適応剤と固定行動剤を併用したハイブリッド集団における協調の進化的ダイナミクスについて検討した。
後者の振る舞いを補うために,まず,行動に適応することを学ぶ方法を示す。
論文 参考訳(メタデータ) (2022-05-13T13:23:42Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Resonating Minds -- Emergent Collaboration Through Hierarchical Active
Inference [0.0]
精神状態(意図,目標)のレベルでの自動調整プロセスが,協調的な問題解決につながるかを検討する。
協調エージェント(HAICA)の階層的アクティブ推論モデルを提案する。
本研究では,信念共鳴と能動的推論により,迅速かつ効率的なエージェント協調が可能であり,協調認知エージェントのビルディングブロックとして機能することを示す。
論文 参考訳(メタデータ) (2021-12-02T13:23:44Z) - A mechanism of Individualistic Indirect Reciprocity with internal and
external dynamics [0.0]
本研究は,エージェントの態度に着目した Nowak モデルと Sigmund モデルの新しい変種を提案する。
エージェントベースモデルとデータサイエンス手法を用いて,エージェントの識別的スタンスがほとんどの場合優位であることを示す。
また, 他者の評判が不明な場合には, 不均一性が高く, 協力需要が高い場合には, 異種社会が得られることも示唆した。
論文 参考訳(メタデータ) (2021-05-28T23:28:50Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。