論文の概要: Emergent Prosociality in Multi-Agent Games Through Gifting
- arxiv url: http://arxiv.org/abs/2105.06593v1
- Date: Thu, 13 May 2021 23:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:49:58.830219
- Title: Emergent Prosociality in Multi-Agent Games Through Gifting
- Title(参考訳): ギフトによるマルチエージェントゲームにおける創発的社会性
- Authors: Woodrow Z. Wang, Mark Beliaev, Erdem B{\i}y{\i}k, Daniel A. Lazar,
Ramtin Pedarsani, Dorsa Sadigh
- Abstract要約: 強化学習アルゴリズムは、複数の平衡が存在する場合、社会的に望まれない均衡に収束する。
我々は,より社会的に望ましい均衡に向けてエージェントを誘導する,制約の少ないピアリワード機構,ギフトの利用を提案する。
我々は、社会的均衡への収束における贈与の利点を捉えた理論的枠組みを用いる。
- 参考スコア(独自算出の注目度): 14.943238230772264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Coordination is often critical to forming prosocial behaviors -- behaviors
that increase the overall sum of rewards received by all agents in a
multi-agent game. However, state of the art reinforcement learning algorithms
often suffer from converging to socially less desirable equilibria when
multiple equilibria exist. Previous works address this challenge with explicit
reward shaping, which requires the strong assumption that agents can be forced
to be prosocial. We propose using a less restrictive peer-rewarding mechanism,
gifting, that guides the agents toward more socially desirable equilibria while
allowing agents to remain selfish and decentralized. Gifting allows each agent
to give some of their reward to other agents. We employ a theoretical framework
that captures the benefit of gifting in converging to the prosocial equilibrium
by characterizing the equilibria's basins of attraction in a dynamical system.
With gifting, we demonstrate increased convergence of high risk, general-sum
coordination games to the prosocial equilibrium both via numerical analysis and
experiments.
- Abstract(参考訳): コーディネーションは、多エージェントゲームにおいて全てのエージェントが受ける報酬の総和を増加させる行動である、社会的行動を形成するためにしばしば重要である。
しかし, 技術強化学習アルゴリズムの現状は, 複数の平衡が存在する場合には, 社会的に望ましい均衡に陥ることがしばしばある。
以前は、エージェントが社会的に強制されるという強い仮定を必要とする明確な報酬形成によって、この問題に対処していた。
我々は,より社会的に望ましい均衡に向けてエージェントを誘導し,エージェントを自己中心的かつ分散的に維持する,制約の少ないピアリワード機構,ギフト(ギフト)を用いることを提案する。
贈与により、各エージェントは他のエージェントに報酬を与えることができる。
動的システムにおいて、平衡のアトラクションの流域を特徴付けることにより、社会均衡に収束する際のギフトの利益を捉える理論的枠組みを用いる。
ギフト化により,高リスク,一般サムコーディネートゲームが,数値解析と実験を通じて,社会均衡に収束することを示す。
関連論文リスト
- Tractable Local Equilibria in Non-Concave Games [57.088421626355455]
オンライングラディエントDescentとノンレグレット学習は,非コンケーブゲームにおける粗相関平衡に効率よく収束することを示した。
非凹面ゲームにおいて局所的なナッシュ均衡を一般化する、$(varepsilon, Phi(delta))$-local equilibriumと呼ばれる新しい解の概念を提案する。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in
Urban Driving Games [64.71476526716668]
我々は,任意の平衡選手がプレーに同意するであろう効率について検討する。
我々は、アナーキーの価格に関する既存の境界を洗練させる保証を得る。
提案手法はオープンループ軌道に対する懸念を保証しているが,エージェントがクローズドループポリシーを採用する場合においても,効率的な平衡を観測する。
論文 参考訳(メタデータ) (2022-10-24T09:32:40Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - Formal Contracts Mitigate Social Dilemmas in Multi-Agent RL [4.969697978555126]
マルチエージェント強化学習(MARL)は、共通の環境で独立して行動する自律エージェントを訓練するための強力なツールである。
MARLは、個人インセンティブとグループインセンティブが多様化する際の準最適行動を引き起こす。
本稿では,事前に規定された条件下で,エージェントが自発的に報酬の束縛に同意するマルコフゲームの拡張を提案する。
論文 参考訳(メタデータ) (2022-08-22T17:42:03Z) - Inducing Equilibria via Incentives: Simultaneous Design-and-Play Finds
Global Optima [114.31577038081026]
本稿では,デザイナーとエージェントの問題を同時に1ループで解くための効率的な手法を提案する。
設計者は平衡問題を何度も解決しないが、エージェントに対するインセンティブの全体的な影響を予測できる。
このアルゴリズムは,幅広い種類のゲームに対して,サブ線形速度で大域的最適値に収束することを示す。
論文 参考訳(メタデータ) (2021-10-04T06:53:59Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Calibration of Shared Equilibria in General Sum Partially Observable
Markov Games [15.572157454411533]
我々は、異なるタイプのエージェントが単一のポリシーネットワークを共有する、一般的な可観測マルコフゲームを考える。
本稿は,そのようなエージェントが到達した平衡を形式的に理解すること,および,そのような平衡の創発的な現象を現実のターゲットに合わせることを目的としている。
論文 参考訳(メタデータ) (2020-06-23T15:14:20Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Inducing Cooperative behaviour in Sequential-Social dilemmas through
Multi-Agent Reinforcement Learning using Status-Quo Loss [16.016452248865132]
社会的ジレンマの状況では、個々人の合理性は準最適集団の結果をもたらす。
個人報酬を最適化するために訓練された深層強化学習エージェントは、利己的で相互に有害な行動に収束する。
いくつかのソーシャルジレンマ行列ゲームにおいて、SQLossで訓練されたエージェントが協調行動をどのように進化させるかを示す。
論文 参考訳(メタデータ) (2020-01-15T18:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。