論文の概要: Multi-Agent Reinforcement Learning in Cournot Games
- arxiv url: http://arxiv.org/abs/2009.06224v1
- Date: Mon, 14 Sep 2020 06:53:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 13:17:54.174887
- Title: Multi-Agent Reinforcement Learning in Cournot Games
- Title(参考訳): クールノットゲームにおけるマルチエージェント強化学習
- Authors: Yuanyuan Shi, Baosen Zhang
- Abstract要約: 情報フィードバックを限定した連続アクションCournotゲームにおける戦略エージェントの相互作用について検討する。
本稿では,制御強化学習アルゴリズムとして広く採用されているポリシ勾配アルゴリズムのダイナミクスについて考察する。
- 参考スコア(独自算出の注目度): 6.282068591820945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the interaction of strategic agents in continuous
action Cournot games with limited information feedback. Cournot game is the
essential market model for many socio-economic systems where agents learn and
compete without the full knowledge of the system or each other. We consider the
dynamics of the policy gradient algorithm, which is a widely adopted continuous
control reinforcement learning algorithm, in concave Cournot games. We prove
the convergence of policy gradient dynamics to the Nash equilibrium when the
price function is linear or the number of agents is two. This is the first
result (to the best of our knowledge) on the convergence property of learning
algorithms with continuous action spaces that do not fall in the no-regret
class.
- Abstract(参考訳): 本研究では,情報フィードバックを限定した連続アクションCournotゲームにおける戦略エージェントの相互作用について検討する。
クールノットゲームは、エージェントがシステムや相互の完全な知識なしに学び、競争する多くの社会経済システムにとって不可欠な市場モデルである。
本稿では,concave cournotゲームにおいて広く採用されている連続制御強化学習アルゴリズムであるポリシー勾配アルゴリズムのダイナミクスについて考察する。
価格関数が線形あるいはエージェントの数が2である場合、政策勾配ダイナミクスのナッシュ平衡への収束性を証明する。
これは(私たちの知る限りでは)非回帰クラスに該当しない連続的な作用空間を持つ学習アルゴリズムの収束性に関する最初の結果である。
関連論文リスト
- Strategizing against Q-learners: A Control-theoretical Approach [1.3927943269211591]
敵のQ-ラーニングアルゴリズムを知っていれば、いかに戦略的に洗練されたエージェントが素質のQ-ラーナーを活用できるかを定量化する。
連続状態空間に取り組むための量子化に基づく近似スキームを提案する。
論文 参考訳(メタデータ) (2024-03-13T18:54:27Z) - Stability of Multi-Agent Learning in Competitive Networks: Delaying the
Onset of Chaos [9.220952628571812]
競争的ネットワークゲームにおけるマルチエージェント学習の振る舞いは、ゼロサムゲームの文脈内でしばしば研究される。
マルチエージェント学習における探索と活用の一般的なモデルであるQ-Learning dynamicsについて検討する。
また,Q-Learningの安定性はエージェントの総数ではなくネットワーク接続にのみ依存していることが判明した。
論文 参考訳(メタデータ) (2023-12-19T08:41:06Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Exploration-Exploitation in Multi-Agent Competition: Convergence with
Bounded Rationality [21.94743452608215]
本研究では,ゲーム報酬と探索費用のバランスを捉えたプロトタイプ学習モデルであるスムーズQ-ラーニングについて検討する。
Q-ラーニングは常に、有界な有理性の下でのゲームに対する標準的な解概念である一意の量子-応答平衡(QRE)に収束することを示す。
論文 参考訳(メタデータ) (2021-06-24T11:43:38Z) - Deep Latent Competition: Learning to Race Using Visual Control Policies
in Latent Space [63.57289340402389]
Deep Latent Competition (DLC) は、想像力の自己プレイを通じて、競合する視覚制御ポリシーを学ぶ強化学習アルゴリズムである。
想像すると、セルフプレイは現実世界でコストのかかるサンプル生成を削減し、潜在表現は観測次元で計画を優雅にスケールできる。
論文 参考訳(メタデータ) (2021-02-19T09:00:29Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。