論文の概要: Logit-Q Dynamics for Efficient Learning in Stochastic Teams
- arxiv url: http://arxiv.org/abs/2302.09806v2
- Date: Tue, 2 Jan 2024 19:43:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 17:21:49.135964
- Title: Logit-Q Dynamics for Efficient Learning in Stochastic Teams
- Title(参考訳): 確率的チームにおける効率的な学習のためのロジット-Qダイナミクス
- Authors: Muhammed O. Sayin and Onur Unlu
- Abstract要約: 提案したロジット-Qのダイナミクスが,チームの(ほぼ)効率的なイテレーションに到達していることを示す。
また、純粋な定常戦略に従うエージェントに対するロジット-Qダイナミクスの合理性を示す。
鍵となる考え方は、Q-函数の見積もりが解析のみのために有限長のエポック上で定常であるような架空のシナリオと力学を近似することである。
- 参考スコア(独自算出の注目度): 1.8492669447784602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present two logit-Q learning dynamics combining the classical and
independent log-linear learning updates with an on-policy value iteration
update for efficient learning in stochastic games. We show that the logit-Q
dynamics presented reach (near) efficient equilibrium in stochastic teams. We
quantify a bound on the approximation error. We also show the rationality of
the logit-Q dynamics against agents following pure stationary strategies and
the convergence of the dynamics in stochastic games where the reward functions
induce potential games, yet only a single agent controls the state transitions
beyond stochastic teams. The key idea is to approximate the dynamics with a
fictional scenario where the Q-function estimates are stationary over
finite-length epochs only for analysis. We then couple the dynamics in the main
and fictional scenarios to show that these two scenarios become more and more
similar across epochs due to the vanishing step size.
- Abstract(参考訳): 本稿では,従来の対数線形学習と独立な対数線形学習を併用した2つの対数-Q学習ダイナミクスを提案する。
確率的チームでは,ロジット-Qのダイナミクスが(ほぼ)効率よく平衡することを示した。
我々は近似誤差のバウンドを定量化する。
また、純粋な定常戦略に従うエージェントに対するロジット-Qダイナミクスの合理性や、報酬関数が潜在的ゲームを引き起こす確率ゲームにおけるダイナミクスの収束性を示すが、確率的チームを超えた状態遷移を制御するのは単一のエージェントのみである。
鍵となるアイデアは、q関数推定が有限長エポック上のみ定常であるような架空のシナリオでダイナミクスを近似することである。
次に、メインシナリオとフィクションシナリオのダイナミクスを組み合わせることで、これらの2つのシナリオが、消滅するステップサイズのために、エポック全体でより似ています。
関連論文リスト
- On the Convergence of No-Regret Learning Dynamics in Time-Varying Games [89.96815099996132]
時間変化ゲームにおける楽観的勾配降下(OGD)の収束を特徴付ける。
我々のフレームワークは、ゼロサムゲームにおけるOGDの平衡ギャップに対して鋭い収束境界をもたらす。
また,静的ゲームにおける動的後悔の保証に関する新たな洞察も提供する。
論文 参考訳(メタデータ) (2023-01-26T17:25:45Z) - Asymptotic Convergence and Performance of Multi-Agent Q-Learning
Dynamics [38.5932141555258]
一般的な強化学習アルゴリズムであるスムーズなQ-Learningのダイナミクスについて検討する。
我々は、Qラーニング力学が任意のゲームにおいて一意の平衡に収束することが保証されるような探索速度の十分条件を示す。
論文 参考訳(メタデータ) (2023-01-23T18:39:11Z) - Finding mixed-strategy equilibria of continuous-action games without
gradients using randomized policy networks [83.28949556413717]
グラデーションへのアクセスを伴わない連続アクションゲームのナッシュ平衡を近似的に計算する問題について検討する。
ニューラルネットワークを用いてプレイヤーの戦略をモデル化する。
本論文は、制約のない混合戦略と勾配情報のない一般的な連続アクションゲームを解決する最初の方法である。
論文 参考訳(メタデータ) (2022-11-29T05:16:41Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - Independent and Decentralized Learning in Markov Potential Games [3.8779763612314633]
我々は、プレイヤーがゲームモデルに関する知識を持っておらず、コーディネートできない独立的で分散的な設定に焦点を当てる。
各ステージにおいて、プレイヤーは、実現したワンステージ報酬に基づいて、各ステージの合計利得を評価するQ関数の推定値を更新する。
学習力学によって引き起こされるポリシーは、確率 1 のマルコフポテンシャルゲームにおける定常ナッシュ平衡の集合に収束することを示す。
論文 参考訳(メタデータ) (2022-05-29T07:39:09Z) - Independent Learning in Stochastic Games [16.505046191280634]
動的環境におけるマルチエージェント学習のためのゲームモデルを提案する。
ゲームのためのシンプルで独立した学習力学の開発に焦点をあてる。
我々は最近提案したゼロサムゲームにおける収束を保証する単純かつ独立な学習力学について述べる。
論文 参考訳(メタデータ) (2021-11-23T09:27:20Z) - Learning in nonatomic games, Part I: Finite action spaces and population
games [22.812059396480656]
非原子ゲームにおいて、離散時間と連続時間の両方で学習するための幅広いダイナミクスの長期的挙動について検討する。
有限作用空間を持つゲームにのみ焦点をあて、連続作用空間を持つ非原子ゲームは、この論文のパートIIで詳細に扱われる。
論文 参考訳(メタデータ) (2021-07-04T11:20:45Z) - From Motor Control to Team Play in Simulated Humanoid Football [56.86144022071756]
我々は、現実的な仮想環境でサッカーをするために、物理的にシミュレートされたヒューマノイドアバターのチームを訓練する。
一連の段階において、プレイヤーはまず、現実的な人間のような動きを実行するために、完全に関節化された身体を制御することを学習する。
その後、ドリブルやシューティングといった中級のサッカーのスキルを身につける。
最後に、彼らは他の人を意識し、チームとしてプレーし、ミリ秒のタイムスケールで低レベルのモーターコントロールのギャップを埋める。
論文 参考訳(メタデータ) (2021-05-25T20:17:10Z) - Simple Uncoupled No-Regret Learning Dynamics for Extensive-Form
Correlated Equilibrium [65.64512759706271]
正常形式ゲームにおける相関平衡と収束する単純非結合非残余力学の存在について研究する。
広義のゲームではトリガー後悔の概念を導入し、通常のゲームでは内部の後悔が延長される。
我々は,反復数において後悔をトリガーする確率が高い確率で保証する効率的なno-regretアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-04-04T02:26:26Z) - Fictitious play in zero-sum stochastic games [1.9143447222638694]
ゲームにおける古典的な遊びとQ-ラーニングを組み合わせた架空の遊び力学の新たな変種を提案する。
2プレイヤーゼロサムゲームにおける収束特性を解析する。
論文 参考訳(メタデータ) (2020-10-08T19:06:45Z) - Chaos, Extremism and Optimism: Volume Analysis of Learning in Games [55.24050445142637]
本稿では,ゼロサムにおける乗算重み更新 (MWU) と最適乗算重み更新 (OMWU) のボリューム解析と協調ゲームについて述べる。
我々は、OMWUが、その既知の収束挙動の代替的な理解を提供するために、ボリュームを契約していることを示します。
我々はまた、コーディネートゲームを調べる際に役割が逆になるという意味で、自由ランチ型の定理も証明する: OMWU は指数関数的に高速に体積を拡大するが、MWU は契約する。
論文 参考訳(メタデータ) (2020-05-28T13:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。