論文の概要: Computational Performance of Deep Reinforcement Learning to find Nash
Equilibria
- arxiv url: http://arxiv.org/abs/2104.12895v1
- Date: Mon, 26 Apr 2021 22:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:32:58.739493
- Title: Computational Performance of Deep Reinforcement Learning to find Nash
Equilibria
- Title(参考訳): nash平衡を求めるための深層強化学習の計算性能
- Authors: Christoph Graf, Viktor Zobernig, Johannes Schmidt, Claude Kl\"ockl
- Abstract要約: 我々は深層強化学習アルゴリズムを用いて、企業が価格で競う環境でnash平衡を学習する。
モデルフリーであるにもかかわらず、アルゴリズムの様々なステップで大量のパラメータが利用される。
最大99%の収束率に達することができるパラメータの選択を見つけます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We test the performance of deep deterministic policy gradient (DDPG), a deep
reinforcement learning algorithm, able to handle continuous state and action
spaces, to learn Nash equilibria in a setting where firms compete in prices.
These algorithms are typically considered model-free because they do not
require transition probability functions (as in e.g., Markov games) or
predefined functional forms. Despite being model-free, a large set of
parameters are utilized in various steps of the algorithm. These are e.g.,
learning rates, memory buffers, state-space dimensioning, normalizations, or
noise decay rates and the purpose of this work is to systematically test the
effect of these parameter configurations on convergence to the analytically
derived Bertrand equilibrium. We find parameter choices that can reach
convergence rates of up to 99%. The reliable convergence may make the method a
useful tool to study strategic behavior of firms even in more complex settings.
Keywords: Bertrand Equilibrium, Competition in Uniform Price Auctions, Deep
Deterministic Policy Gradient Algorithm, Parameter Sensitivity Analysis
- Abstract(参考訳): 我々は,連続状態と行動空間を処理可能な深層強化学習アルゴリズムであるddpg(deep deterministic policy gradient)の性能をテストし,企業が価格で競う環境でnash平衡を学習する。
これらのアルゴリズムは通常、遷移確率関数(マルコフゲームなど)や事前定義された機能形式を必要としないため、モデルフリーと見なされる。
モデルフリーにもかかわらず、アルゴリズムの様々なステップで大量のパラメータが利用される。
これらは学習率、メモリバッファ、状態空間次元化、正規化、ノイズ減衰率などであり、本研究の目的は解析的に導かれたベルトランド平衡への収束に対するパラメータ構成の影響を体系的に検証することである。
パラメータの選択は、最大99%の収束率に達することができる。
信頼性の高い収束は、より複雑な環境でも企業の戦略的行動を研究する上で有用なツールとなる可能性がある。
キーワード:Bertrand Equilibrium, competition in Uniform Price Auctions, Deep Deterministic Policy Gradient Algorithm, Parameter Sensitivity Analysis
関連論文リスト
- Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - Smoothing Policy Iteration for Zero-sum Markov Games [9.158672246275348]
ゼロサムMGの解法としてスムージングポリシロバストネス(SPI)アルゴリズムを提案する。
特に、対向ポリシーは、作用空間上の効率的なサンプリングを可能にする重み関数として機能する。
また,SPIを関数近似で拡張することにより,Smooth adversarial Actor-critic (SaAC) と呼ばれるモデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T14:39:06Z) - Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning
with Parameter Convergence [18.412945308419033]
マルチエージェント学習における自然政策勾配近似のグローバル収束について検討する。
本稿では,複数の標準的なマルチエージェント学習シナリオに対するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-23T18:27:04Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Gradient play in stochastic games: stationary points, convergence, and
sample complexity [6.97785632069611]
ゲーム用グラデーションプレイアルゴリズム(SG)の性能について検討する。
この設定では、ナッシュ均衡(NE)と1次定常ポリシーが等価であることを示す。
マルコフポテンシャルゲームと呼ばれるSGのサブクラスに対して、サンプルベース強化学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-06-01T03:03:45Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Adversarial Robustness Guarantees for Gaussian Processes [22.403365399119107]
ガウス過程(GP)は、モデルの不確実性の原理的計算を可能にし、安全性に重要なアプリケーションに魅力的です。
境界付き摂動に対するモデル決定の不変性として定義されるGPの対向的堅牢性を分析するためのフレームワークを提案する。
我々は境界を洗練し、任意の$epsilon > 0$に対して、我々のアルゴリズムが有限個の反復で実際の値に$epsilon$-closeの値に収束することを保証していることを示す分岐とバウンドのスキームを開発する。
論文 参考訳(メタデータ) (2021-04-07T15:14:56Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。