論文の概要: Q-Learning in Regularized Mean-field Games
- arxiv url: http://arxiv.org/abs/2003.12151v3
- Date: Thu, 10 Nov 2022 18:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 09:47:33.294654
- Title: Q-Learning in Regularized Mean-field Games
- Title(参考訳): 正規化平均場ゲームにおけるq学習
- Authors: Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi
- Abstract要約: 我々は,無限水平割引報酬関数の下で,正規化された平均場ゲームを導入し,このゲームについて学習する。
古典的平均場ゲームモデルにおいて、一段報酬関数に強凹型正規化関数を付加することにより正規化を導入する。
適応Q-ラーニングを用いた,この正規化平均場ゲームに対する値ベース学習アルゴリズムを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce a regularized mean-field game and study learning
of this game under an infinite-horizon discounted reward function.
Regularization is introduced by adding a strongly concave regularization
function to the one-stage reward function in the classical mean-field game
model. We establish a value iteration based learning algorithm to this
regularized mean-field game using fitted Q-learning. The regularization term in
general makes reinforcement learning algorithm more robust to the system
components. Moreover, it enables us to establish error analysis of the learning
algorithm without imposing restrictive convexity assumptions on the system
components, which are needed in the absence of a regularization term.
- Abstract(参考訳): 本稿では,無限水平割引報酬関数の下で,正規化された平均場ゲームを導入し,学習する。
古典的平均場ゲームモデルにおいて、一段報酬関数に強凹型正規化関数を付加することにより正規化を導入する。
本稿では,この正規化平均場ゲームにq-learningを適用した値反復学習アルゴリズムを提案する。
正規化の用語は、強化学習アルゴリズムをシステムコンポーネントに対してより堅牢にする。
さらに,正規化項がない場合に必要となるシステムコンポーネントに制約付き凸性仮定を課すことなく,学習アルゴリズムの誤り解析を確立することができる。
関連論文リスト
- LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning [30.4251858001151]
暗黙の報酬関数の2乗ノルム正規化は有効であるが、アルゴリズムの結果の性質に関する理論的解析は提供されない。
我々の手法であるLast Squares Inverse Q-Learningは、特に吸収状態の環境において、最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-01T15:46:12Z) - Iterative regularization in classification via hinge loss diagonal descent [12.684351703991965]
反復正規化(英: Iterative regularization)は、最近機械学習で人気になった正規化理論における古典的な考え方である。
本稿では,分類の文脈における反復正則化に着目した。
論文 参考訳(メタデータ) (2022-12-24T07:15:26Z) - Learning Correlated Equilibria in Mean-Field Games [62.14589406821103]
我々は平均場相関と粗相関平衡の概念を発展させる。
ゲームの構造に関する仮定を必要とせず,効率よくゲーム内で学習できることが示される。
論文 参考訳(メタデータ) (2022-08-22T08:31:46Z) - Near-Optimal No-Regret Learning for General Convex Games [121.50979258049135]
一般凸およびコンパクト戦略集合に対して後悔が得られることを示す。
我々の力学は、適度にエンハンリフトされた空間上の楽観的な従順化バウンドのインスタンス化にある。
先行結果が適用される特殊な場合であっても、我々のアルゴリズムは最先端の後悔よりも改善される。
論文 参考訳(メタデータ) (2022-06-17T12:58:58Z) - A unified stochastic approximation framework for learning in games [82.74514886461257]
ゲームにおける学習の長期的挙動(連続的・有限的)を解析するためのフレキシブルな近似フレームワークを開発する。
提案する分析テンプレートには,勾配に基づく手法,有限ゲームでの学習のための指数的/乗算的重み付け,楽観的および帯域的変異など,幅広い一般的な学習アルゴリズムが組み込まれている。
論文 参考訳(メタデータ) (2022-06-08T14:30:38Z) - No-Regret Learning in Time-Varying Zero-Sum Games [99.86860277006318]
固定ゼロサムゲームにおける繰り返しプレイからの学習は、ゲーム理論とオンライン学習における古典的な問題である。
提案手法は,3つの性能基準の下で,良好な保証を同時に享受できる1つのパラメータフリーアルゴリズムである。
本アルゴリズムは,ある特性を満たすブラックボックスベースラーナー群に対するメタアルゴリズムを用いた2層構造に基づく。
論文 参考訳(メタデータ) (2022-01-30T06:10:04Z) - Inverse Reinforcement Learning in the Continuous Setting with Formal
Guarantees [31.122125783516726]
逆強化学習(IRL)は、観察/既知の専門家の行動を記述する報酬関数を見つけることの問題です。
未知の遷移ダイナミクスを持つ連続状態空間設定のための新しいIRLアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-02-16T03:17:23Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - Entropy Regularization for Mean Field Games with Learning [9.601419434933106]
本稿では,平均場ゲーム(MFG)におけるエントロピー正則化が有限時間地平線学習に与える影響を解析する。
我々の研究は、エントロピー正則化が時間依存ポリシーをもたらすという理論的正当化を提供する。
このアルゴリズムでは、エージェントはゲーム平衡に安定かつ迅速に収束する最適な探索スケジューリングを学習することができる。
論文 参考訳(メタデータ) (2020-09-30T23:27:11Z) - Continual Deep Learning by Functional Regularisation of Memorable Past [95.97578574330934]
知的システムにとって、新しいスキルを継続的に学習することは重要だが、標準的なディープラーニング手法は、過去の破滅的な忘れ物に悩まされている。
本稿では, 過去の記憶に残るいくつかの例を, 忘れることを避けるために活用する機能正規化手法を提案する。
提案手法は,標準ベンチマーク上での最先端性能を実現し,正規化とメモリベースの手法を自然に組み合わせた生涯学習の新たな方向性を開拓する。
論文 参考訳(メタデータ) (2020-04-29T10:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。