論文の概要: Approximate Nash Equilibrium Learning for n-Player Markov Games in
Dynamic Pricing
- arxiv url: http://arxiv.org/abs/2207.06492v3
- Date: Sat, 2 Mar 2024 14:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 21:21:59.103173
- Title: Approximate Nash Equilibrium Learning for n-Player Markov Games in
Dynamic Pricing
- Title(参考訳): 動的価格設定におけるnプレイヤーマルコフゲームの近似nash平衡学習
- Authors: Larkin Liu
- Abstract要約: 競技マルコフゲーム(MG)環境におけるナッシュ均衡学習について検討する。
我々は、近似的なナッシュ平衡を求めるための新しいモデルフリー手法を開発した。
我々は、特に動的価格領域において、近似的なナッシュ均衡を学習できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate Nash equilibrium learning in a competitive Markov Game (MG)
environment, where multiple agents compete, and multiple Nash equilibria can
exist. In particular, for an oligopolistic dynamic pricing environment, exact
Nash equilibria are difficult to obtain due to the curse-of-dimensionality. We
develop a new model-free method to find approximate Nash equilibria.
Gradient-free black box optimization is then applied to estimate $\epsilon$,
the maximum reward advantage of an agent unilaterally deviating from any joint
policy, and to also estimate the $\epsilon$-minimizing policy for any given
state. The policy-$\epsilon$ correspondence and the state to
$\epsilon$-minimizing policy are represented by neural networks, the latter
being the Nash Policy Net. During batch update, we perform Nash Q learning on
the system, by adjusting the action probabilities using the Nash Policy Net. We
demonstrate that an approximate Nash equilibrium can be learned, particularly
in the dynamic pricing domain where exact solutions are often intractable.
- Abstract(参考訳): 我々は,複数のエージェントが競合するマルコフゲーム(MG)環境でのナッシュ均衡学習について検討し,複数のナッシュ均衡が存在することを示す。
特に、オリゴポラティスティックな動的価格設定環境においては、正確なナッシュ平衡は、次元の呪いのため取得が困難である。
近似ナッシュ平衡を求める新しいモデルフリー法を開発した。
グラディエントフリーなブラックボックス最適化は、任意のジョイントポリシーから一方的に逸脱するエージェントの最大報酬の利点である$\epsilon$を推定し、任意の状態に対する$\epsilon$-minimizingポリシーを推定する。
ポリシ-$\epsilon$対応と$\epsilon$最小化ポリシへの状態はニューラルネットワークで表現され、後者はNash Policy Netである。
バッチ更新中に,nashポリシネットを用いて動作確率を調整することにより,システム上でnash q学習を行う。
特に,厳密解がしばしば難解である動的価格領域において,近似ナッシュ均衡が学習できることを実証する。
関連論文リスト
- On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。
Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。
また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文 参考訳(メタデータ) (2024-03-13T01:51:30Z) - Optimistic Policy Gradient in Multi-Player Markov Games with a Single
Controller: Convergence Beyond the Minty Property [89.96815099996132]
単一コントローラを用いたマルチプレイヤーゲームにおいて,楽観的なポリシー勾配手法を特徴付ける新しいフレームワークを開発した。
我々のアプローチは、我々が導入する古典的なミニティの自然一般化に依存しており、マルコフゲームを超えてさらなる応用が期待できる。
論文 参考訳(メタデータ) (2023-12-19T11:34:10Z) - Learning Nash Equilibria in Zero-Sum Markov Games: A Single Time-scale Algorithm Under Weak Reachability [11.793922711718645]
我々は,ゼロサムゲームにおいて,プレイヤーが情報のみを閲覧し,相手の行動や支払いを行うような分散学習を検討する。
従来の研究は、強い到達可能性仮定の下で二重時間スケールのアルゴリズムを用いて、この設定でナッシュ均衡に収束することを示した。
我々の貢献は合理的で収束したアルゴリズムであり、Tsallis-Entropy regularization を値イテレーションに基づくアルゴリズムで利用している。
論文 参考訳(メタデータ) (2023-12-13T09:31:30Z) - Smooth Nash Equilibria: Algorithms and Complexity [38.08108978808664]
ナッシュ均衡の概念の根本的な欠点は、その計算的推論性である。
$sigma$-smooth Nash均衡では、プレイヤーは$sigma$-smooth戦略への最良の偏差よりも少なくとも高いユーティリティを達成する必要がある。
弱いと強い$sigma$-smooth Nash平衡は、Nash平衡よりも優れた計算特性を持つことを示す。
論文 参考訳(メタデータ) (2023-09-21T16:22:07Z) - A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。
単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文 参考訳(メタデータ) (2023-06-12T23:48:24Z) - Differentiable Arbitrating in Zero-sum Markov Games [59.62061049680365]
ゼロサムマルコフゲームにおいて、2人のプレイヤーが望ましいナッシュ均衡、すなわち仲裁を誘導する報酬を摂動する方法を研究する。
低いレベルでは、与えられた報酬関数の下でのナッシュ均衡の解決が必要であり、それによって全体的な問題をエンドツーエンドで最適化することが難しくなる。
上層階の勾配フィードバックを提供するナッシュ平衡を微分するバックプロパゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-20T16:05:04Z) - Game-Theoretical Perspectives on Active Equilibria: A Preferred Solution
Concept over Nash Equilibria [61.093297204685264]
マルチエージェント強化学習における効果的なアプローチは,エージェントの学習プロセスを検討し,今後の政策に影響を与えることである。
この新たな解の概念は、ナッシュ均衡のような標準解の概念が活性平衡の特別な場合である、という一般的なものである。
我々は,ゲーム理論の観点から,ナッシュ平衡が知られている実例を綿密に研究することにより,アクティブ平衡を解析する。
論文 参考訳(メタデータ) (2022-10-28T14:45:39Z) - Operator Splitting for Learning to Predict Equilibria in Convex Games [26.92001486095397]
平衡を自然に出力するニューラルネットワークのクラスであるNash Fixed Point Networks (N-FPNs)を紹介する。
N-FPNは暗黙のネットワークをトレーニングするための最近開発されたヤコビアンフリーバックプロパゲーション技術と互換性がある。
実験の結果,N-FPNは既存の学習ゲーム解法よりも桁違いに大きい問題にスケール可能であることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:55:46Z) - No-regret learning and mixed Nash equilibria: They do not mix [64.37511607254115]
我々はFTRL(Follow-the-regularized-leader)のダイナミクスについて検討する。
厳密でないナッシュ均衡は、FTRLの下で安定して引き寄せることは不可能である。
この結果は,学習過程の結果を予測する上で重要な意味を持つ。
論文 参考訳(メタデータ) (2020-10-19T13:49:06Z) - Learning Nash Equilibria in Zero-Sum Stochastic Games via
Entropy-Regularized Policy Approximation [18.35524179586723]
ゼロサムゲームにおけるナッシュ均衡学習の計算コストを削減するためのポリシー近似の利用について検討する。
我々は,Nashポリシーを近似するために,エントロピー規則化されたソフトポリシーのシーケンスを利用する新しいQ-ラーニング型アルゴリズムを提案する。
一定の条件下では、正規化されたQ-関数を更新することにより、アルゴリズムはナッシュ平衡に収束する。
論文 参考訳(メタデータ) (2020-09-01T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。