Fugu-MT 論文翻訳(概要): An Independent Learning Algorithm for a Class of Symmetric Stochastic Games

論文の概要: An Independent Learning Algorithm for a Class of Symmetric Stochastic Games

arxiv url: http://arxiv.org/abs/2110.04638v1
Date: Sat, 9 Oct 2021 19:57:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-16 21:26:35.706176
Title: An Independent Learning Algorithm for a Class of Symmetric Stochastic Games
Title（参考訳）: 対称確率ゲームクラスに対する独立学習アルゴリズム
Authors: Bora Yongacoglu, G\"urdal Arslan, Serdar Y\"uksel
Abstract要約: 本稿では,非エポゾディック・ディスカウントゲームにおいて,独立学習者を用いて近似平衡ポリシを求める可能性について検討する。このクラスのゲームにおいて、近似平衡の確率保証の高い独立学習アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In multi-agent reinforcement learning, independent learners are those that do not access the action selections of other learning agents in the system. This paper investigates the feasibility of using independent learners to find approximate equilibrium policies in non-episodic, discounted stochastic games. We define a property, here called the $\epsilon$-revision paths property, and prove that a class of games exhibiting symmetry among the players has this property for any $\epsilon \geq 0$. Building on this result, we present an independent learning algorithm that comes with high probability guarantees of approximate equilibrium in this class of games. This guarantee is made assuming symmetry alone, without additional assumptions such as a zero sum, team, or potential game structure.
Abstract（参考訳）: マルチエージェント強化学習では、独立学習者はシステム内の他の学習エージェントの行動選択にアクセスできない学習者である。本稿では,独立学習者を用いて非定型確率ゲームにおける近似均衡政策を見出す可能性について検討する。ここでは$\epsilon$-revision pathsプロパティと呼ばれるプロパティを定義し、プレイヤー間で対称性を示すゲームのクラスが$\epsilon \geq 0$に対してこのプロパティを持つことを示す。この結果に基づいて,このクラスのゲームにおいて,近似平衡の確率保証の高い独立学習アルゴリズムを提案する。この保証は、ゼロ和、チーム、潜在的なゲーム構造のような追加の仮定なしで対称性のみを仮定する。

関連論文リスト

Last-Iterate Convergence of Payoff-Based Independent Learning in Zero-Sum Stochastic Games [31.554420227087043]
両プレイヤー間のペイオフベース、収束、合理的、対称な学習ダイナミクスを開発する。行列ゲーム設定では、結果はナッシュ分布を見つけるために$O(epsilon-1)$の複雑さを意味する。ゲーム設定では、結果はナッシュ平衡を求めるために$O(epsilon-8)$の複雑さをも意味している。
論文参考訳（メタデータ） (2024-09-02T20:07:25Z)
On Tractable $Φ$-Equilibria in Non-Concave Games [53.212133025684224]
非凹面ゲームはゲーム理論と最適化に重大な課題をもたらす。 Phi$が有限であるとき、対応する$Phi$-equilibriaに収束する効率的な非結合学習アルゴリズムが存在することを示す。また,オンライングラディエントDescentは,非自明な状況下で効率よく$Phi$-equilibriaを近似できることを示した。
論文参考訳（メタデータ） (2024-03-13T01:51:30Z)
Scalable and Independent Learning of Nash Equilibrium Policies in $n$-Player Stochastic Games with Unknown Independent Chains [1.0878040851638]
独立な連鎖と未知の遷移行列を持つゲームについて研究する。このクラスのゲームでは、プレイヤーは他のプレイヤーの状態や行動に依存しない内部マルコフ連鎖を制御する。我々は、$epsilon$-NEポリシーを学ぶために、完全に分散化されたミラー降下アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-04T03:04:09Z)
A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning [53.83345471268163]
非定常マルチエージェントシステムにおける平衡の学習について検討する。単エージェント学習へのブラックボックス還元による様々な平衡の検証方法を示す。
論文参考訳（メタデータ） (2023-06-12T23:48:24Z)
A Finite-Sample Analysis of Payoff-Based Independent Learning in Zero-Sum Stochastic Games [22.62123576833411]
本研究では,2プレイヤーゼロサムゲームについて検討し,Douubly Smoothed Best-Response dynamicsと呼ばれる独立学習力学の形式を提案する。結果として得られるダイナミクスは、プレイヤー間でのペイオフベース、収束、合理的、対称である。
論文参考訳（メタデータ） (2023-03-03T05:01:41Z)
Policy Mirror Ascent for Efficient and Independent Learning in Mean Field Games [35.86199604587823]
平均場ゲームは対称および匿名の$N$-playerゲームに対して近似的なナッシュ均衡を得るための理論的ツールとして使われてきた。ポリシーミラーを実行する$N$エージェントは、$widetildemathcalO(varepsilon-2)$サンプル内で正規化ゲームのナッシュ平衡に収束することを示す。
論文参考訳（メタデータ） (2022-12-29T20:25:18Z)
Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文参考訳（メタデータ） (2022-08-22T08:31:46Z)
A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文参考訳（メタデータ） (2022-06-08T14:30:38Z)
Learning Stationary Nash Equilibrium Policies in $n$-Player Stochastic Games with Independent Chains [2.132096006921048]
我々は、プレイヤーがペイオフ機能を介して結合されている間、内部の状態/行動空間を持つ、$n$プレイヤゲームのクラスを考える。このクラスのゲームに対して、報奨関数を仮定せずに定常ナッシュ(NE)ポリシーを見つけることは、対話可能であることを示す。我々は,2重平均化と2重ミラー降下に基づくアルゴリズムを開発し,これを$epsilon$-NEポリシーの集合に収束させる。
論文参考訳（メタデータ） (2022-01-28T16:27:21Z)
Independent Policy Gradient Methods for Competitive Reinforcement Learning [62.91197073795261]
2つのエージェントによる競争強化学習環境における独立学習アルゴリズムに対するグローバル・非漸近収束保証を得る。本研究は,両選手がタンデムで政策勾配法を実行すると,学習率を2回ルールに従えば,その政策はゲームの最小均衡に収束することを示す。
論文参考訳（メタデータ） (2021-01-11T23:20:42Z)
On Information Asymmetry in Competitive Multi-Agent Reinforcement Learning: Convergence and Optimality [78.76529463321374]
協調的でない2つのQ-ラーニングエージェントの相互作用システムについて検討する。この情報非対称性は、集団学習の安定した結果をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2020-10-21T11:19:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。