論文の概要: Cooperation and Reputation Dynamics with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.07523v1
- Date: Mon, 15 Feb 2021 12:48:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 15:29:54.964573
- Title: Cooperation and Reputation Dynamics with Reinforcement Learning
- Title(参考訳): 強化学習による協調と意見のダイナミクス
- Authors: Nicolas Anastassacos, Julian Garc\'ia, Stephen Hailes, Mirco Musolesi
- Abstract要約: 私達は信頼および協同を確立する方法として評判がいかに使用されるか示します。
好ましくない平衡への収束を緩和する2つのメカニズムを提案する。
この結果が進化ゲーム理論の文献とどのように関係しているかを示す。
- 参考スコア(独自算出の注目度): 6.219565750197311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Creating incentives for cooperation is a challenge in natural and artificial
systems. One potential answer is reputation, whereby agents trade the immediate
cost of cooperation for the future benefits of having a good reputation. Game
theoretical models have shown that specific social norms can make cooperation
stable, but how agents can independently learn to establish effective
reputation mechanisms on their own is less understood. We use a simple model of
reinforcement learning to show that reputation mechanisms generate two
coordination problems: agents need to learn how to coordinate on the meaning of
existing reputations and collectively agree on a social norm to assign
reputations to others based on their behavior. These coordination problems
exhibit multiple equilibria, some of which effectively establish cooperation.
When we train agents with a standard Q-learning algorithm in an environment
with the presence of reputation mechanisms, convergence to undesirable
equilibria is widespread. We propose two mechanisms to alleviate this: (i)
seeding a proportion of the system with fixed agents that steer others towards
good equilibria; and (ii), intrinsic rewards based on the idea of
introspection, i.e., augmenting agents' rewards by an amount proportionate to
the performance of their own strategy against themselves. A combination of
these simple mechanisms is successful in stabilizing cooperation, even in a
fully decentralized version of the problem where agents learn to use and assign
reputations simultaneously. We show how our results relate to the literature in
Evolutionary Game Theory, and discuss implications for artificial, human and
hybrid systems, where reputations can be used as a way to establish trust and
cooperation.
- Abstract(参考訳): 協力のためのインセンティブを作成することは、自然および人工システムにおける課題です。
一つの潜在的な答えは評判であり、エージェントは評判の良い将来の利益のためにすぐに協力するコストを取引する。
ゲーム理論モデルでは、特定の社会規範が協力を安定させることが示されていますが、エージェントが単独で効果的な評判メカニズムを確立するために独立して学ぶ方法はあまり理解されていません。
エージェントは既存の評判の意味をコーディネートする方法を学び、その行動に基づいて他の人に評判を割り当てるために社会的規範に集合的に合意する必要があります。
これらのコーディネーション問題は複数の平衡を示し、その一部は効果的に協調を確立する。
評価機構が存在する環境において,標準q学習アルゴリズムを用いてエージェントを訓練する場合,望ましくない平衡への収束が広く行われる。
これを緩和するための2つのメカニズムを提案する: (i) 他者を良い平衡に向かって誘導する固定エージェントとシステムの割合を播種すること; (ii) 内省の考え方に基づく本質的な報酬、すなわち、自分自身に対する自身の戦略の実行に比例する量でエージェントの報酬を高めること。
これらの単純なメカニズムの組み合わせは、エージェントが同時に使用し、評価を割り当てることを学ぶ問題の完全な分散バージョンであっても、協力の安定化に成功している。
この結果が進化ゲーム理論の文献とどのように関連しているかを示し,信頼と協力を確立する方法として評価を活用できる人工的,人間的,ハイブリッドシステムへの示唆について論じる。
関連論文リスト
- Adaptive Value Decomposition with Greedy Marginal Contribution
Computation for Cooperative Multi-Agent Reinforcement Learning [48.41925886860991]
現実世界の協力はしばしばエージェント間の集中的な調整を必要とする。
単調なユーティリティの単調混合として値関数を学習する従来の方法は、非単調なリターンでタスクを解くことはできない。
非単調な問題に対処するための新しい明示的な信用割当手法を提案する。
論文 参考訳(メタデータ) (2023-02-14T07:23:59Z) - Flexible social inference facilitates targeted social learning when
rewards are not observable [58.762004496858836]
柔軟な社会的推論の能力は、人間の集団行動において重要な役割を果たす。
最も初歩的な社会的認知能力でさえ、人間の集団行動の特徴的な柔軟性を促進する可能性がある。
論文 参考訳(メタデータ) (2022-12-01T21:04:03Z) - Intrinsic fluctuations of reinforcement learning promote cooperation [0.0]
社会的ジレンマの状況における協力は、動物、人間、機械にとって不可欠である。
マルチエージェント・ラーニング・セッティングの個々の要素が協調にどのように寄与するかを実証する。
論文 参考訳(メタデータ) (2022-09-01T09:14:47Z) - The art of compensation: how hybrid teams solve collective risk dilemmas [6.081979963786028]
適応剤と固定行動剤を併用したハイブリッド集団における協調の進化的ダイナミクスについて検討した。
後者の振る舞いを補うために,まず,行動に適応することを学ぶ方法を示す。
論文 参考訳(メタデータ) (2022-05-13T13:23:42Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Resonating Minds -- Emergent Collaboration Through Hierarchical Active
Inference [0.0]
精神状態(意図,目標)のレベルでの自動調整プロセスが,協調的な問題解決につながるかを検討する。
協調エージェント(HAICA)の階層的アクティブ推論モデルを提案する。
本研究では,信念共鳴と能動的推論により,迅速かつ効率的なエージェント協調が可能であり,協調認知エージェントのビルディングブロックとして機能することを示す。
論文 参考訳(メタデータ) (2021-12-02T13:23:44Z) - Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima [114.31577038081026]
本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
論文 参考訳(メタデータ) (2021-10-04T06:53:59Z) - A mechanism of Individualistic Indirect Reciprocity with internal and
external dynamics [0.0]
本研究は,エージェントの態度に着目した Nowak モデルと Sigmund モデルの新しい変種を提案する。
エージェントベースモデルとデータサイエンス手法を用いて,エージェントの識別的スタンスがほとんどの場合優位であることを示す。
また, 他者の評判が不明な場合には, 不均一性が高く, 協力需要が高い場合には, 異種社会が得られることも示唆した。
論文 参考訳(メタデータ) (2021-05-28T23:28:50Z) - One for One, or All for All: Equilibria and Optimality of Collaboration
in Federated Learning [24.196114621742705]
本論文では,ゲーム理論の概念に触発されて,フェデレーション学習におけるインセンティブ認識学習とデータ共有のためのフレームワークを提案する。
安定でうらやましい平衡は、学習目標を達成することに関心のあるエージェントの存在下でのコラボレーションの概念を捉えます。
論文 参考訳(メタデータ) (2021-03-04T18:53:17Z) - End-to-End Learning and Intervention in Games [60.41921763076017]
ゲームにおける学習と介入のための統一的なフレームワークを提供する。
明示的および暗黙的な区別に基づく2つのアプローチを提案する。
分析結果は、実世界のいくつかの問題を用いて検証される。
論文 参考訳(メタデータ) (2020-10-26T18:39:32Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。