論文の概要: Emergent Prosociality in Multi-Agent Games Through Gifting
- arxiv url: http://arxiv.org/abs/2105.06593v1
- Date: Thu, 13 May 2021 23:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:49:58.830219
- Title: Emergent Prosociality in Multi-Agent Games Through Gifting
- Title(参考訳): ギフトによるマルチエージェントゲームにおける創発的社会性
- Authors: Woodrow Z. Wang, Mark Beliaev, Erdem B{\i}y{\i}k, Daniel A. Lazar,
Ramtin Pedarsani, Dorsa Sadigh
- Abstract要約: 強化学習アルゴリズムは、複数の平衡が存在する場合、社会的に望まれない均衡に収束する。
我々は,より社会的に望ましい均衡に向けてエージェントを誘導する,制約の少ないピアリワード機構,ギフトの利用を提案する。
我々は、社会的均衡への収束における贈与の利点を捉えた理論的枠組みを用いる。
- 参考スコア(独自算出の注目度): 14.943238230772264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coordination is often critical to forming prosocial behaviors -- behaviors
that increase the overall sum of rewards received by all agents in a
multi-agent game. However, state of the art reinforcement learning algorithms
often suffer from converging to socially less desirable equilibria when
multiple equilibria exist. Previous works address this challenge with explicit
reward shaping, which requires the strong assumption that agents can be forced
to be prosocial. We propose using a less restrictive peer-rewarding mechanism,
gifting, that guides the agents toward more socially desirable equilibria while
allowing agents to remain selfish and decentralized. Gifting allows each agent
to give some of their reward to other agents. We employ a theoretical framework
that captures the benefit of gifting in converging to the prosocial equilibrium
by characterizing the equilibria's basins of attraction in a dynamical system.
With gifting, we demonstrate increased convergence of high risk, general-sum
coordination games to the prosocial equilibrium both via numerical analysis and
experiments.
- Abstract(参考訳): コーディネーションは、多エージェントゲームにおいて全てのエージェントが受ける報酬の総和を増加させる行動である、社会的行動を形成するためにしばしば重要である。
しかし, 技術強化学習アルゴリズムの現状は, 複数の平衡が存在する場合には, 社会的に望ましい均衡に陥ることがしばしばある。
以前は、エージェントが社会的に強制されるという強い仮定を必要とする明確な報酬形成によって、この問題に対処していた。
我々は,より社会的に望ましい均衡に向けてエージェントを誘導し,エージェントを自己中心的かつ分散的に維持する,制約の少ないピアリワード機構,ギフト(ギフト)を用いることを提案する。
贈与により、各エージェントは他のエージェントに報酬を与えることができる。
動的システムにおいて、平衡のアトラクションの流域を特徴付けることにより、社会均衡に収束する際のギフトの利益を捉える理論的枠組みを用いる。
ギフト化により,高リスク,一般サムコーディネートゲームが,数値解析と実験を通じて,社会均衡に収束することを示す。
関連論文リスト
- Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - Linear Convergence of Independent Natural Policy Gradient in Games with Entropy Regularization [12.612009339150504]
本研究は,マルチエージェント強化学習におけるエントロピー規則化独立自然政策勾配(NPG)アルゴリズムに焦点を当てる。
十分なエントロピー正則化の下では、この系の力学は線形速度で量子応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2024-05-04T22:48:53Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL [4.969697978555126]
マルチエージェント強化学習(MARL)は、共通の環境で独立して行動する自律エージェントを訓練するための強力なツールである。
MARLは、個人インセンティブとグループインセンティブが多様化する際の準最適行動を引き起こす。
本稿では,事前に規定された条件下で,エージェントが自発的に報酬の束縛に同意するマルコフゲームの拡張を提案する。
論文 参考訳(メタデータ) (2022-08-22T17:42:03Z) - Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima [114.31577038081026]
本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
論文 参考訳(メタデータ) (2021-10-04T06:53:59Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Inducing Cooperative behaviour in Sequential-Social dilemmas through
Multi-Agent Reinforcement Learning using Status-Quo Loss [16.016452248865132]
社会的ジレンマの状況では、個々人の合理性は準最適集団の結果をもたらす。
個人報酬を最適化するために訓練された深層強化学習エージェントは、利己的で相互に有害な行動に収束する。
いくつかのソーシャルジレンマ行列ゲームにおいて、SQLossで訓練されたエージェントが協調行動をどのように進化させるかを示す。
論文 参考訳(メタデータ) (2020-01-15T18:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。