論文の概要: Efficient-Q Learning for Stochastic Games
- arxiv url: http://arxiv.org/abs/2302.09806v1
- Date: Mon, 20 Feb 2023 07:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 16:27:39.635103
- Title: Efficient-Q Learning for Stochastic Games
- Title(参考訳): 確率ゲームのための効率的なQ学習
- Authors: Muhammed O. Sayin and Onur Unlu
- Abstract要約: エージェントは、Q-関数が支払われるステージゲームにおいて、ログ線形学習のダイナミクスを従わせることができ、Q-関数は消滅するステップサイズで反復的に推定できる。
対数線形更新におけるソフトマックス応答による近似誤差とほぼ確実に一致し、Q-関数の推定値が、同一関心ゲームにおける効率平衡に付随するQ-関数に収束することを示す。
- 参考スコア(独自算出の注目度): 2.2615446930555403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the new efficient-Q learning dynamics for stochastic games beyond
the recent concentration of progress on provable convergence to possibly
inefficient equilibrium. We let agents follow the log-linear learning dynamics
in stage games whose payoffs are the Q-functions and estimate the Q-functions
iteratively with a vanishing stepsize. This (implicitly) two-timescale dynamic
makes stage games relatively stationary for the log-linear update so that the
agents can track the efficient equilibrium of stage games. We show that the
Q-function estimates converge to the Q-function associated with the efficient
equilibrium in identical-interest stochastic games, almost surely, with an
approximation error induced by the softmax response in the log-linear update.
The key idea is to approximate the dynamics with a fictional scenario where
Q-function estimates are stationary over finite-length epochs. We then couple
the dynamics in the main and fictional scenarios to show that the approximation
error decays to zero due to the vanishing stepsize.
- Abstract(参考訳): 確率ゲームのための新しい効率的なQ学習力学を、証明可能な収束に対する最近の進歩の集中を超越して非効率均衡の可能性を示す。
エージェントがq関数であるステージゲームにおける対数線形学習ダイナミクスを追従させ,q関数を逐次評価し,ステップを消失させる。
この2時間スケールのダイナミクスは、エージェントがステージゲームの効率的な平衡を追跡することができるように、ログ線形更新のためにステージゲームを比較的静止させる。
対数線形更新におけるソフトマックス応答による近似誤差とほぼ確実に一致し,Q-関数の推定値が同一関心確率ゲームにおけるQ-関数に収束することを示した。
鍵となるアイデアは、q関数推定が有限長エポック上で定常であるような架空のシナリオでダイナミクスを近似することである。
次に、主シナリオと虚構シナリオのダイナミクスを組み合わせることで、近似誤差が消滅するステップによってゼロになることを示す。
関連論文リスト
- On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Learning in nonatomic games, Part I: Finite action spaces and population
games [22.812059396480656]
非原子ゲームにおいて、離散時間と連続時間の両方で学習するための幅広いダイナミクスの長期的挙動について検討する。
有限作用空間を持つゲームにのみ焦点をあて、連続作用空間を持つ非原子ゲームは、この論文のパートIIで詳細に扱われる。
論文 参考訳(メタデータ) (2021-07-04T11:20:45Z) - From Motor Control to Team Play in Simulated Humanoid Football [56.86144022071756]
我々は、現実的な仮想環境でサッカーをするために、物理的にシミュレートされたヒューマノイドアバターのチームを訓練する。
一連の段階において、プレイヤーはまず、現実的な人間のような動きを実行するために、完全に関節化された身体を制御することを学習する。
その後、ドリブルやシューティングといった中級のサッカーのスキルを身につける。
最後に、彼らは他の人を意識し、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋める。
論文 参考訳(メタデータ) (2021-05-25T20:17:10Z) - Simple Uncoupled No-Regret Learning Dynamics for Extensive-Form
Correlated Equilibrium [65.64512759706271]
正常形式ゲームにおける相関平衡と収束する単純非結合非残余力学の存在について研究する。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
我々は,反復数において後悔をトリガーする確率が高い確率で保証する効率的なno-regretアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-04T02:26:26Z) - Fictitious play in zero-sum stochastic games [1.9143447222638694]
ゲームにおける古典的な遊びとQ-ラーニングを組み合わせた架空の遊び力学の新たな変種を提案する。
2プレイヤーゼロサムゲームにおける収束特性を解析する。
論文 参考訳(メタデータ) (2020-10-08T19:06:45Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。