論文の概要: Specification-Guided Learning of Nash Equilibria with High Social
Welfare
- arxiv url: http://arxiv.org/abs/2206.03348v1
- Date: Mon, 6 Jun 2022 16:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 14:30:33.818776
- Title: Specification-Guided Learning of Nash Equilibria with High Social
Welfare
- Title(参考訳): 高社会福祉を伴うナッシュ均衡の仕様指導型学習
- Authors: Kishor Jothimurugan, Suguman Bansal, Osbert Bastani and Rajeev Alur
- Abstract要約: ナッシュ均衡を形成する共同政策を訓練するための新しい強化学習フレームワークを提案する。
このアルゴリズムは高い社会福祉と均衡政策を計算しているのに対し、最先端のベースラインはナッシュ均衡の計算に失敗したり、比較的低い社会福祉の計算に失敗したりする。
- 参考スコア(独自算出の注目度): 21.573746897846114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning has been shown to be an effective strategy for
automatically training policies for challenging control problems. Focusing on
non-cooperative multi-agent systems, we propose a novel reinforcement learning
framework for training joint policies that form a Nash equilibrium. In our
approach, rather than providing low-level reward functions, the user provides
high-level specifications that encode the objective of each agent. Then, guided
by the structure of the specifications, our algorithm searches over policies to
identify one that provably forms an $\epsilon$-Nash equilibrium (with high
probability). Importantly, it prioritizes policies in a way that maximizes
social welfare across all agents. Our empirical evaluation demonstrates that
our algorithm computes equilibrium policies with high social welfare, whereas
state-of-the-art baselines either fail to compute Nash equilibria or compute
ones with comparatively lower social welfare.
- Abstract(参考訳): 強化学習は、制御問題に挑戦する政策を自動訓練するための効果的な戦略であることが示されている。
本研究では,非協調型マルチエージェントシステムに着目し,ナッシュ均衡を形成する共同政策を訓練するための新しい強化学習フレームワークを提案する。
提案手法では,低レベルの報酬関数を提供するのではなく,各エージェントの目的を符号化する高レベルの仕様を提供する。
そこで,提案アルゴリズムは,仕様の構造に導かれて,高確率で$\epsilon$-Nash平衡(英語版)を立証可能なものを特定するためのポリシーを探索する。
重要なことは、すべてのエージェントの社会福祉を最大化する方法でポリシーを優先することである。
実験結果から,本アルゴリズムは社会福祉と均衡政策を両立させるが,最先端のベースラインはnash平衡の計算に失敗するか,相対的に低い社会福祉を計算できないことが示された。
関連論文リスト
- Actions Speak What You Want: Provably Sample-Efficient Reinforcement
Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks [94.07688076435818]
本研究では,量子スタックルバーグ平衡(QSE)学習のための強化学習を,リーダ・フォロワー構造を持つエピソディックマルコフゲームで研究する。
このアルゴリズムは, (i) 最大推定による量子応答モデル学習と (ii) リーダーの意思決定問題を解決するためのモデルフリーまたはモデルベースRLに基づく。
論文 参考訳(メタデータ) (2023-07-26T10:24:17Z) - PACER: A Fully Push-forward-based Distributional Reinforcement Learning Algorithm [28.48626438603237]
PACERは、流通批評家、俳優、サンプルベースの奨励者で構成されている。
プッシュフォワード演算子は、それぞれリターン分布とポリシーをモデル化するために、批評家とアクターの両方で利用される。
プッシュフォワードポリシー更新のために、サンプルベースのユーティリティ値ポリシー勾配を確立する。
論文 参考訳(メタデータ) (2023-06-11T09:45:31Z) - Balancing policy constraint and ensemble size in uncertainty-based
offline reinforcement learning [7.462336024223669]
不確実性を規制するメカニズムとして,政策制約の役割について検討する。
行動クローンをポリシー更新に組み込むことで、より小さなアンサンブルサイズで十分な罰則を実現できることを示す。
このような手法がオンラインの微調整を安定させ、厳格な性能低下を回避しつつ、継続的な政策改善を可能にしていることを示す。
論文 参考訳(メタデータ) (2023-03-26T13:03:11Z) - Welfare and Fairness in Multi-objective Reinforcement Learning [1.5763562007908967]
エージェントが複数の次元において高い報酬を同時に達成する政策を学習しなければならない公平な多目的強化学習について検討する。
提案手法は,線形スカラー化に基づく手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-30T01:40:59Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - Learning Stabilizing Policies in Stochastic Control Systems [20.045860624444494]
単一学習アルゴリズムを用いて,マーチンゲール証明書と協調してポリシーを学習し,その安定性を証明した。
本研究は, 共同最適化における事前学習の方法として, 修復と検証を成功させるためには, 何らかの形態の事前学習が必要であることを示唆する。
論文 参考訳(メタデータ) (2022-05-24T11:38:22Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。