論文の概要: Get It in Writing: Formal Contracts Mitigate Social Dilemmas in
Multi-Agent RL
- arxiv url: http://arxiv.org/abs/2208.10469v1
- Date: Mon, 22 Aug 2022 17:42:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:15:53.838871
- Title: Get It in Writing: Formal Contracts Mitigate Social Dilemmas in
Multi-Agent RL
- Title(参考訳): 形式契約はマルチエージェントRLにおける社会的ジレンマを軽減する
- Authors: Phillip J.K. Christoffersen, Andreas A. Haupt, Dylan Hadfield-Menell
- Abstract要約: マルチエージェント強化学習 (MARL) は, 共通環境において独立して機能する自動システムの訓練を行う強力なツールである。
MARLは、個人インセンティブとグループインセンティブが多様化する際の準最適行動を引き起こす。
エージェントが自発的に状態依存的な報酬の転送に同意するマルコフゲームの拡張を提案する。
- 参考スコア(独自算出の注目度): 4.944699931965839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent reinforcement learning (MARL) is a powerful tool for training
automated systems acting independently in a common environment. However, it can
lead to sub-optimal behavior when individual incentives and group incentives
diverge. Humans are remarkably capable at solving these social dilemmas. It is
an open problem in MARL to replicate such cooperative behaviors in selfish
agents. In this work, we draw upon the idea of formal contracting from
economics to overcome diverging incentives between agents in MARL. We propose
an augmentation to a Markov game where agents voluntarily agree to binding
state-dependent transfers of reward, under pre-specified conditions. Our
contributions are theoretical and empirical. First, we show that this
augmentation makes all subgame-perfect equilibria of all fully observed Markov
games exhibit socially optimal behavior, given a sufficiently rich space of
contracts. Next, we complement our game-theoretic analysis by showing that
state-of-the-art RL algorithms learn socially optimal policies given our
augmentation. Our experiments include classic static dilemmas like Stag Hunt,
Prisoner's Dilemma and a public goods game, as well as dynamic interactions
that simulate traffic, pollution management and common pool resource
management.
- Abstract(参考訳): マルチエージェント強化学習 (MARL) は, 共通環境において独立して機能する自動システムの訓練を行う強力なツールである。
しかし、個々のインセンティブとグループインセンティブが分かれる場合、最適以下の行動につながる可能性がある。
人間はこれらの社会的ジレンマを解決することができる。
marlではこのような協力的な行動を利己的なエージェントで再現することはオープンな問題である。
本研究は,MARLにおけるエージェント間のインセンティブのばらつきを克服するため,経済学からの正式な契約について考察する。
我々は, エージェントが事前に規定された条件下で, 国家依存の報酬移転に自発的に同意するマルコフゲームの拡張を提案する。
私たちの貢献は理論的かつ実証的です。
第一に、この拡張により、完全観察されたマルコフゲームの全ての部分ゲーム完全平衡は、十分に豊かな契約空間を与えられた社会的に最適な振る舞いを示すことが示される。
次に,最先端のrlアルゴリズムが社会最適政策を学習することを示すことで,ゲーム理論解析を補完する。
私たちの実験には、Stag HuntやPrisoner's Dilemmaといった古典的な静的ジレンマや、トラフィック、汚染管理、一般的なプール資源管理をシミュレートする動的相互作用が含まれています。
関連論文リスト
- Contracting with a Learning Agent [32.950708673180436]
本研究では,学習エージェントとの繰り返し契約に関する研究を行い,結果が得られないエージェントに着目した。
我々は、複数のアクション間のエージェントの選択が成功/失敗に繋がる正準契約設定において、この問題に対する最適解を実現する。
我々の結果は、成功/失敗を超えて、プリンシパルが動的に再スケールする任意の非線形契約に一般化される。
論文 参考訳(メタデータ) (2024-01-29T14:53:22Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - Towards Multi-Agent Reinforcement Learning driven Over-The-Counter
Market Simulations [16.48389671789281]
オーバー・ザ・カウンタ市場において,流動性提供者と流動性取扱業者が相互作用するゲームについて検討した。
互いに対戦することで、深層強化学習主体のエージェントは創発的な行動を学ぶ。
遷移性仮定の下で,多エージェントポリシー勾配アルゴリズムの収束率を示す。
論文 参考訳(メタデータ) (2022-10-13T17:06:08Z) - Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally
Inattentive Reinforcement Learning [85.86440477005523]
我々は、人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを含む、より人間的なRLエージェントについて検討する。
RIRLは、相互情報を用いた認知情報処理のコストをモデル化する。
我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる、新しい平衡挙動の豊富なスペクトルが得られることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:54:00Z) - Finding General Equilibria in Many-Agent Economic Simulations Using Deep
Reinforcement Learning [72.23843557783533]
本研究では,エージェント種別のメタゲームに対して,エプシロン・ナッシュ平衡である安定解を求めることができることを示す。
私たちのアプローチはより柔軟で、例えば市場クリア化のような非現実的な仮定は必要ありません。
当社のアプローチは、実際のビジネスサイクルモデル、DGEモデルの代表的なファミリー、100人の労働者消費者、10社の企業、税金と再分配を行う政府で実証しています。
論文 参考訳(メタデータ) (2022-01-03T17:00:17Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Emergent Prosociality in Multi-Agent Games Through Gifting [14.943238230772264]
強化学習アルゴリズムは、複数の平衡が存在する場合、社会的に望まれない均衡に収束する。
我々は,より社会的に望ましい均衡に向けてエージェントを誘導する,制約の少ないピアリワード機構,ギフトの利用を提案する。
我々は、社会的均衡への収束における贈与の利点を捉えた理論的枠組みを用いる。
論文 参考訳(メタデータ) (2021-05-13T23:28:30Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。