論文の概要: Deep Learning for Principal-Agent Mean Field Games
- arxiv url: http://arxiv.org/abs/2110.01127v1
- Date: Sun, 3 Oct 2021 23:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 01:56:53.344768
- Title: Deep Learning for Principal-Agent Mean Field Games
- Title(参考訳): プリンシパルアジェント平均フィールドゲームのための深層学習
- Authors: Steven Campbell, Yichao Chen, Arvind Shrivats, Sebastian Jaimungal
- Abstract要約: マーケットクリーニング条件を用いて,プリンシパル・アジェント平均フィールドゲームを解くためのディープラーニングアルゴリズムを開発した。
エージェントは主のペナルティ関数に従ってナッシュ平衡を形成する。
数値計算の結果,アルゴリズムの有効性が示され,PA相互作用の最適性に関する興味深い知見が得られた。
- 参考スコア(独自算出の注目度): 5.2220228867103815
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Here, we develop a deep learning algorithm for solving Principal-Agent (PA)
mean field games with market-clearing conditions -- a class of problems that
have thus far not been studied and one that poses difficulties for standard
numerical methods. We use an actor-critic approach to optimization, where the
agents form a Nash equilibria according to the principal's penalty function,
and the principal evaluates the resulting equilibria. The inner problem's Nash
equilibria is obtained using a variant of the deep backward stochastic
differential equation (BSDE) method modified for McKean-Vlasov forward-backward
SDEs that includes dependence on the distribution over both the forward and
backward processes. The outer problem's loss is further approximated by a
neural net by sampling over the space of penalty functions. We apply our
approach to a stylized PA problem arising in Renewable Energy Certificate (REC)
markets, where agents may rent clean energy production capacity, trade RECs,
and expand their long-term capacity to navigate the market at maximum profit.
Our numerical results illustrate the efficacy of the algorithm and lead to
interesting insights into the nature of optimal PA interactions in the
mean-field limit of these markets.
- Abstract(参考訳): そこで本研究では,これまで研究されていない問題のクラスであり,標準数値法では難しい問題となっている,市場開拓条件を持つ主エージェント平均場ゲームを解くための深層学習アルゴリズムを開発した。
エージェントがプリンシパルのペナルティ関数に従ってnash平衡を形成し、プリンシパルが結果の平衡を評価する。
内部問題のnash平衡は、mckean-vlasov forward-backward sdesのために修正された深後方確率微分方程式 (bsde) の変種を用いて得られる。
外部問題の損失は、ペナルティ関数の空間をサンプリングすることによってニューラルネットワークによりさらに近似される。
我々は,再生可能エネルギー認証(REC)市場において,クリーンエネルギー生産能力の貸借,RECの取引,長期的生産能力の拡大により市場を最大限の利益でナビゲートすることのできる,スタイル化されたPA問題に適用する。
数値計算の結果,アルゴリズムの有効性が示され,これらの市場の平均場限界における最適pa相互作用の性質に関する興味深い知見が得られた。
関連論文リスト
- Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Achieving Fairness in Multi-Agent Markov Decision Processes Using
Reinforcement Learning [30.605881670761853]
有限水平エピソードMDPにおける公平性を実現するための強化学習手法を提案する。
このようなアプローチは、エピソード数の観点から、サブ線形後悔を実現することを示す。
論文 参考訳(メタデータ) (2023-06-01T03:43:53Z) - Stochastic Methods for AUC Optimization subject to AUC-based Fairness
Constraints [51.12047280149546]
公正な予測モデルを得るための直接的なアプローチは、公正な制約の下で予測性能を最適化することでモデルを訓練することである。
フェアネスを考慮した機械学習モデルのトレーニング問題を,AUCに基づくフェアネス制約のクラスを対象とする最適化問題として定式化する。
フェアネス測定値の異なる実世界のデータに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-12-23T22:29:08Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Mean-Semivariance Policy Optimization via Risk-Averse Reinforcement
Learning [12.022303947412917]
本稿では,強化学習における平均半変量基準の最適化を目的とした。
我々は,政策依存型報酬関数を用いて一連のRL問題を反復的に解くことで,MSV問題を解くことができることを明らかにした。
政策勾配理論と信頼領域法に基づく2つのオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-15T08:32:53Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Distributional Soft Actor-Critic: Off-Policy Reinforcement Learning for
Addressing Value Estimation Errors [13.534873779043478]
本稿では,Q値過大評価を緩和し,ポリシー性能を向上させるための分散型ソフトアクター・クリティック(DSAC)アルゴリズムを提案する。
我々は,MuJoCo連続制御タスクのスイート上でDSACを評価し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-01-09T02:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。