論文の概要: Calculus of Consent via MARL: Legitimating the Collaborative Governance
Supplying Public Goods
- arxiv url: http://arxiv.org/abs/2111.10627v1
- Date: Sat, 20 Nov 2021 16:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 10:45:56.147322
- Title: Calculus of Consent via MARL: Legitimating the Collaborative Governance
Supplying Public Goods
- Title(参考訳): MARLによる合意の計算:公共財の協調的ガバナンスの合法化
- Authors: Yang Hu, Zhui Zhu, Sirui Song, Xue Liu, Yang Yu
- Abstract要約: MARL(Multi-Agent Reinforcement Learning)法は、個人の利益を犠牲にして公共商品を供給する公共政策の正当性を支持するのに適している。
本稿では,地域間協力によるパンデミック対策を事例として,MARLの推論の必要性を示す。
- 参考スコア(独自算出の注目度): 13.151064381091402
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Public policies that supply public goods, especially those involve
collaboration by limiting individual liberty, always give rise to controversies
over governance legitimacy. Multi-Agent Reinforcement Learning (MARL) methods
are appropriate for supporting the legitimacy of the public policies that
supply public goods at the cost of individual interests. Among these policies,
the inter-regional collaborative pandemic control is a prominent example, which
has become much more important for an increasingly inter-connected world facing
a global pandemic like COVID-19. Different patterns of collaborative strategies
have been observed among different systems of regions, yet it lacks an
analytical process to reason for the legitimacy of those strategies. In this
paper, we use the inter-regional collaboration for pandemic control as an
example to demonstrate the necessity of MARL in reasoning, and thereby
legitimizing policies enforcing such inter-regional collaboration. Experimental
results in an exemplary environment show that our MARL approach is able to
demonstrate the effectiveness and necessity of restrictions on individual
liberty for collaborative supply of public goods. Different optimal policies
are learned by our MARL agents under different collaboration levels, which
change in an interpretable pattern of collaboration that helps to balance the
losses suffered by regions of different types, and consequently promotes the
overall welfare. Meanwhile, policies learned with higher collaboration levels
yield higher global rewards, which illustrates the benefit of, and thus
provides a novel justification for the legitimacy of, promoting inter-regional
collaboration. Therefore, our method shows the capability of MARL in
computationally modeling and supporting the theory of calculus of consent,
developed by Nobel Prize winner J. M. Buchanan.
- Abstract(参考訳): 公共財を供給する公共政策、特に個人の自由を制限することで協力する政策は、常に統治の合法性に関する論争を引き起こす。
マルチエージェント強化学習(marl)法は、個人の利益を犠牲にして公共財を供給する公共政策の正当性を支持するのに適切である。
こうした政策の中で、地域間協力型パンデミックコントロールは顕著な例であり、新型コロナウイルス(COVID-19)のような世界的なパンデミックに直面している相互接続の世界にとって、ますます重要になっている。
地域によって異なる協力戦略のパターンが観察されているが、それらの戦略の正当性を説明する分析過程が欠如している。
本稿では,地域間協力をパンデミックコントロールに利用して,MARLの推論の必要性を実証し,地域間協力を強制する政策の正当性を示す。
実証的な環境下での実験結果から,我々のMARLアプローチは,公共商品の協調供給における個人の自由に対する制約の有効性と必要性を実証できることが示された。
異なる協力レベルでのMARLエージェントによって異なる最適政策が学習され、異なるタイプの地域が被った損失のバランスを保ち、その結果、全体的な福祉を促進するための、解釈可能な協調パターンが変化します。
一方、より高い協力水準で学んだ政策は、より高いグローバル報酬をもたらし、それによって地域間協力の正当性の新たな正当化を提供する。
そこで本手法は, ノーベル賞受賞者のJ. M. Buchananによって開発された, 同意の計算理論のモデル化と支援におけるMARLの有効性を示す。
関連論文リスト
- Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Context-Aware Bayesian Network Actor-Critic Methods for Cooperative
Multi-Agent Reinforcement Learning [7.784991832712813]
本稿では, エージェントの行動選択の相関関係を, 共同政策に導入するベイズネットワークを提案する。
本研究では,コンテキスト認識型ベイズ型ネットワークポリシを学習するための実用的なアルゴリズムを開発した。
MARLベンチマークの実証結果は,我々のアプローチの利点を示している。
論文 参考訳(メタデータ) (2023-06-02T21:22:27Z) - PMIC: Improving Multi-Agent Reinforcement Learning with Progressive
Mutual Information Collaboration [37.69262027583926]
協調学習はマルチエージェント強化学習(MARL)において重要である
より効果的なMI駆動コラボレーションのためのPMIC(Progressive Mutual Information Collaboration)という新しいフレームワークを提案する。
PMICは、より優れた相互作用経験と劣る相互作用経験のセットを徐々に保存し、徐々に維持する。
論文 参考訳(メタデータ) (2022-03-16T11:28:23Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning [25.027143431992755]
信頼領域の手法により、強化学習(RL)エージェントが単調な政策改善を学ぶことができるようになり、様々なタスクにおいて優れたパフォーマンスが得られた。
残念ながら、マルチエージェント強化学習(MARL)では、単調改善の特性は単純に適用できない。
本稿では、信頼領域学習の理論をMARLに拡張し、マルチエージェント・アドバンテージ分解補題とシーケンシャルポリシー更新スキームについて述べる。
これらに基づき、異種信託地域政策最適化(HATPRO)と異種信託地域政策最適化(HATPRO)を開発する。
論文 参考訳(メタデータ) (2021-09-23T09:44:35Z) - Off-Policy Imitation Learning from Observations [78.30794935265425]
観察からの学習(lfo)は、多くのアプリケーションが利用できる実用的な強化学習シナリオである。
オフポリシ最適化を原則的に実現するサンプル効率の高いLfOアプローチを提案する。
我々のアプローチは、サンプル効率と性能の両面で最先端のロコモーションに匹敵する。
論文 参考訳(メタデータ) (2021-02-25T21:33:47Z) - Dealing with Non-Stationarity in Multi-Agent Reinforcement Learning via
Trust Region Decomposition [52.06086375833474]
非定常性は多エージェント強化学習における厄介な問題である。
ポリシーシーケンスの定常性を明示的にモデル化するための$delta$-stationarity測定を導入する。
共同政策の分岐を推定するために,メッセージパッシングに基づく信頼領域分解ネットワークを提案する。
論文 参考訳(メタデータ) (2021-02-21T14:46:50Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。