論文の概要: Efficient-Q Learning for Stochastic Games
- arxiv url: http://arxiv.org/abs/2302.09806v1
- Date: Mon, 20 Feb 2023 07:07:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 16:27:39.635103
- Title: Efficient-Q Learning for Stochastic Games
- Title(参考訳): 確率ゲームのための効率的なQ学習
- Authors: Muhammed O. Sayin and Onur Unlu
- Abstract要約: エージェントは、Q-関数が支払われるステージゲームにおいて、ログ線形学習のダイナミクスを従わせることができ、Q-関数は消滅するステップサイズで反復的に推定できる。
対数線形更新におけるソフトマックス応答による近似誤差とほぼ確実に一致し、Q-関数の推定値が、同一関心ゲームにおける効率平衡に付随するQ-関数に収束することを示す。
- 参考スコア(独自算出の注目度): 2.2615446930555403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the new efficient-Q learning dynamics for stochastic games beyond
the recent concentration of progress on provable convergence to possibly
inefficient equilibrium. We let agents follow the log-linear learning dynamics
in stage games whose payoffs are the Q-functions and estimate the Q-functions
iteratively with a vanishing stepsize. This (implicitly) two-timescale dynamic
makes stage games relatively stationary for the log-linear update so that the
agents can track the efficient equilibrium of stage games. We show that the
Q-function estimates converge to the Q-function associated with the efficient
equilibrium in identical-interest stochastic games, almost surely, with an
approximation error induced by the softmax response in the log-linear update.
The key idea is to approximate the dynamics with a fictional scenario where
Q-function estimates are stationary over finite-length epochs. We then couple
the dynamics in the main and fictional scenarios to show that the approximation
error decays to zero due to the vanishing stepsize.
- Abstract(参考訳): 確率ゲームのための新しい効率的なQ学習力学を、証明可能な収束に対する最近の進歩の集中を超越して非効率均衡の可能性を示す。
エージェントがq関数であるステージゲームにおける対数線形学習ダイナミクスを追従させ,q関数を逐次評価し,ステップを消失させる。
この2時間スケールのダイナミクスは、エージェントがステージゲームの効率的な平衡を追跡することができるように、ログ線形更新のためにステージゲームを比較的静止させる。
対数線形更新におけるソフトマックス応答による近似誤差とほぼ確実に一致し,Q-関数の推定値が同一関心確率ゲームにおけるQ-関数に収束することを示した。
鍵となるアイデアは、q関数推定が有限長エポック上で定常であるような架空のシナリオでダイナミクスを近似することである。
次に、主シナリオと虚構シナリオのダイナミクスを組み合わせることで、近似誤差が消滅するステップによってゼロになることを示す。
関連論文リスト
- TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Loss Dynamics of Temporal Difference Reinforcement Learning [36.772501199987076]
線形関数近似器を用いた値関数の時間差学習のためのケースラーニング曲線について検討した。
本研究では,学習力学と台地が特徴構造,学習率,割引係数,報酬関数にどのように依存するかを検討する。
論文 参考訳(メタデータ) (2023-07-10T18:17:50Z) - On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Fictitious play in zero-sum stochastic games [1.9143447222638694]
ゲームにおける古典的な遊びとQ-ラーニングを組み合わせた架空の遊び力学の新たな変種を提案する。
2プレイヤーゼロサムゲームにおける収束特性を解析する。
論文 参考訳(メタデータ) (2020-10-08T19:06:45Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。