論文の概要: An Independent Learning Algorithm for a Class of Symmetric Stochastic
Games
- arxiv url: http://arxiv.org/abs/2110.04638v1
- Date: Sat, 9 Oct 2021 19:57:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-16 21:26:35.706176
- Title: An Independent Learning Algorithm for a Class of Symmetric Stochastic
Games
- Title(参考訳): 対称確率ゲームクラスに対する独立学習アルゴリズム
- Authors: Bora Yongacoglu, G\"urdal Arslan, Serdar Y\"uksel
- Abstract要約: 本稿では,非エポゾディック・ディスカウントゲームにおいて,独立学習者を用いて近似平衡ポリシを求める可能性について検討する。
このクラスのゲームにおいて、近似平衡の確率保証の高い独立学習アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-agent reinforcement learning, independent learners are those that do
not access the action selections of other learning agents in the system. This
paper investigates the feasibility of using independent learners to find
approximate equilibrium policies in non-episodic, discounted stochastic games.
We define a property, here called the $\epsilon$-revision paths property, and
prove that a class of games exhibiting symmetry among the players has this
property for any $\epsilon \geq 0$. Building on this result, we present an
independent learning algorithm that comes with high probability guarantees of
approximate equilibrium in this class of games. This guarantee is made assuming
symmetry alone, without additional assumptions such as a zero sum, team, or
potential game structure.
- Abstract(参考訳): マルチエージェント強化学習では、独立学習者はシステム内の他の学習エージェントの行動選択にアクセスできない学習者である。
本稿では,独立学習者を用いて非定型確率ゲームにおける近似均衡政策を見出す可能性について検討する。
ここでは$\epsilon$-revision pathsプロパティと呼ばれるプロパティを定義し、プレイヤー間で対称性を示すゲームのクラスが$\epsilon \geq 0$に対してこのプロパティを持つことを示す。
この結果に基づいて,このクラスのゲームにおいて,近似平衡の確率保証の高い独立学習アルゴリズムを提案する。
この保証は、ゼロ和、チーム、潜在的なゲーム構造のような追加の仮定なしで対称性のみを仮定する。
関連論文リスト
- Scalable and Independent Learning of Nash Equilibrium Policies in
$n$-Player Stochastic Games with Unknown Independent Chains [1.0878040851638]
独立な連鎖と未知の遷移行列を持つゲームについて研究する。
このクラスのゲームでは、プレイヤーは他のプレイヤーの状態や行動に依存しない内部マルコフ連鎖を制御する。
我々は、$epsilon$-NEポリシーを学ぶために、完全に分散化されたミラー降下アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-04T03:04:09Z) - A Finite-Sample Analysis of Payoff-Based Independent Learning in
Zero-Sum Stochastic Games [22.62123576833411]
本研究では,2プレイヤーゼロサムゲームについて検討し,Douubly Smoothed Best-Response dynamicsと呼ばれる独立学習力学の形式を提案する。
結果として得られるダイナミクスは、プレイヤー間でのペイオフベース、収束、合理的、対称である。
論文 参考訳(メタデータ) (2023-03-03T05:01:41Z) - Breaking the Curse of Multiagents in a Large State Space: RL in Markov
Games with Independent Linear Function Approximation [56.715186432566576]
そこで本稿では,大規模状態空間と多数のエージェントを用いた強化学習のための新しいモデルである独立線形マルコフゲームを提案する。
我々は,各エージェントの関数クラスの複雑性にのみ対応して,サンプル境界複雑性を持つ相関平衡 (CCE) とマルコフ相関平衡 (CE) を学習するための新しいアルゴリズムを設計する。
提案アルゴリズムは,1)複数のエージェントによる非定常性に対処するためのポリシーリプレイと,機能近似の利用,2)マルコフ均衡の学習とマルコフゲームにおける探索の分離という,2つの重要な技術革新に依存している。
論文 参考訳(メタデータ) (2023-02-07T18:47:48Z) - Policy Mirror Ascent for Efficient and Independent Learning in Mean
Field Games [35.86199604587823]
平均場ゲームは対称および匿名の$N$-playerゲームに対して近似的なナッシュ均衡を得るための理論的ツールとして使われてきた。
ポリシーミラーを実行する$N$エージェントは、$widetildemathcalO(varepsilon-2)$サンプル内で正規化ゲームのナッシュ平衡に収束することを示す。
論文 参考訳(メタデータ) (2022-12-29T20:25:18Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Independent Policy Gradient for Large-Scale Markov Potential Games:
Sharper Rates, Function Approximation, and Game-Agnostic Convergence [30.084357461497042]
状態空間と/またはプレイヤーの数が非常に大きいMPGのナッシュ均衡を学習する。
我々は,すべてのプレイヤーがタンデムで実行する独立ポリシー勾配アルゴリズムを提案する。
我々は、ゼロサムマルコフゲームとマルコフ協調ゲームの両方の収束性を楽しむ独立ポリシー勾配アルゴリズムのクラスを、ゲームの種類によらないプレイヤーと同定する。
論文 参考訳(メタデータ) (2022-02-08T20:09:47Z) - Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic
Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。
このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。
我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文 参考訳(メタデータ) (2022-01-28T16:27:21Z) - Sample-Efficient Learning of Stackelberg Equilibria in General-Sum Games [78.65798135008419]
一般的なゲームでStackelberg平衡を効率的に学習する方法は、サンプルから非常にオープンなままです。
本稿では,2プレーヤターンベース汎用ゲームにおけるStackelberg平衡のサンプル効率学習に関する理論的研究を開始する。
論文 参考訳(メタデータ) (2021-02-23T05:11:07Z) - Independent Policy Gradient Methods for Competitive Reinforcement
Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。
本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文 参考訳(メタデータ) (2021-01-11T23:20:42Z) - On Information Asymmetry in Competitive Multi-Agent Reinforcement
Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。
この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-21T11:19:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。