論文の概要: Computational Performance of Deep Reinforcement Learning to find Nash
Equilibria
- arxiv url: http://arxiv.org/abs/2104.12895v1
- Date: Mon, 26 Apr 2021 22:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-28 13:32:58.739493
- Title: Computational Performance of Deep Reinforcement Learning to find Nash
Equilibria
- Title(参考訳): nash平衡を求めるための深層強化学習の計算性能
- Authors: Christoph Graf, Viktor Zobernig, Johannes Schmidt, Claude Kl\"ockl
- Abstract要約: 我々は深層強化学習アルゴリズムを用いて、企業が価格で競う環境でnash平衡を学習する。
モデルフリーであるにもかかわらず、アルゴリズムの様々なステップで大量のパラメータが利用される。
最大99%の収束率に達することができるパラメータの選択を見つけます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We test the performance of deep deterministic policy gradient (DDPG), a deep
reinforcement learning algorithm, able to handle continuous state and action
spaces, to learn Nash equilibria in a setting where firms compete in prices.
These algorithms are typically considered model-free because they do not
require transition probability functions (as in e.g., Markov games) or
predefined functional forms. Despite being model-free, a large set of
parameters are utilized in various steps of the algorithm. These are e.g.,
learning rates, memory buffers, state-space dimensioning, normalizations, or
noise decay rates and the purpose of this work is to systematically test the
effect of these parameter configurations on convergence to the analytically
derived Bertrand equilibrium. We find parameter choices that can reach
convergence rates of up to 99%. The reliable convergence may make the method a
useful tool to study strategic behavior of firms even in more complex settings.
Keywords: Bertrand Equilibrium, Competition in Uniform Price Auctions, Deep
Deterministic Policy Gradient Algorithm, Parameter Sensitivity Analysis
- Abstract(参考訳): 我々は,連続状態と行動空間を処理可能な深層強化学習アルゴリズムであるddpg(deep deterministic policy gradient)の性能をテストし,企業が価格で競う環境でnash平衡を学習する。
これらのアルゴリズムは通常、遷移確率関数(マルコフゲームなど)や事前定義された機能形式を必要としないため、モデルフリーと見なされる。
モデルフリーにもかかわらず、アルゴリズムの様々なステップで大量のパラメータが利用される。
これらは学習率、メモリバッファ、状態空間次元化、正規化、ノイズ減衰率などであり、本研究の目的は解析的に導かれたベルトランド平衡への収束に対するパラメータ構成の影響を体系的に検証することである。
パラメータの選択は、最大99%の収束率に達することができる。
信頼性の高い収束は、より複雑な環境でも企業の戦略的行動を研究する上で有用なツールとなる可能性がある。
キーワード:Bertrand Equilibrium, competition in Uniform Price Auctions, Deep Deterministic Policy Gradient Algorithm, Parameter Sensitivity Analysis
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Improved Sample Complexity Bounds for Distributionally Robust
Reinforcement Learning [3.222802562733787]
トレーニング環境とテスト環境のパラメータミスマッチに対して頑健な制御ポリシーを学習することの問題点を考察する。
本研究では,4つの異なる発散によって特定される不確実性集合に対して,ロバスト位相値学習(RPVL)アルゴリズムを提案する。
提案アルゴリズムは,既存の結果より一様によいサンプル複雑性を$tildemathcalO(|mathcalSmathcalA| H5)$とする。
論文 参考訳(メタデータ) (2023-03-05T21:47:08Z) - Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning
with Parameter Convergence [18.412945308419033]
マルチエージェント学習における自然政策勾配近似のグローバル収束について検討する。
本稿では,複数の標準的なマルチエージェント学習シナリオに対するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-23T18:27:04Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Gradient play in stochastic games: stationary points, convergence, and
sample complexity [6.97785632069611]
ゲーム用グラデーションプレイアルゴリズム(SG)の性能について検討する。
この設定では、ナッシュ均衡(NE)と1次定常ポリシーが等価であることを示す。
マルコフポテンシャルゲームと呼ばれるSGのサブクラスに対して、サンプルベース強化学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-06-01T03:03:45Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Adversarial Robustness Guarantees for Gaussian Processes [22.403365399119107]
ガウス過程(GP)は、モデルの不確実性の原理的計算を可能にし、安全性に重要なアプリケーションに魅力的です。
境界付き摂動に対するモデル決定の不変性として定義されるGPの対向的堅牢性を分析するためのフレームワークを提案する。
我々は境界を洗練し、任意の$epsilon > 0$に対して、我々のアルゴリズムが有限個の反復で実際の値に$epsilon$-closeの値に収束することを保証していることを示す分岐とバウンドのスキームを開発する。
論文 参考訳(メタデータ) (2021-04-07T15:14:56Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。