論文の概要: Exploratory LQG Mean Field Games with Entropy Regularization
- arxiv url: http://arxiv.org/abs/2011.12946v3
- Date: Mon, 29 Nov 2021 23:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 03:57:41.048136
- Title: Exploratory LQG Mean Field Games with Entropy Regularization
- Title(参考訳): エントロピー規則化によるLQG平均フィールドゲーム
- Authors: Dena Firoozi and Sebastian Jaimungal
- Abstract要約: 作用分布の最適セットは、有限人口エントロピー規則化されたMFGに対して$epsilon$-Nash平衡をもたらすことを示す。
得られた解と古典的LQG MFGの解を比較し、それらの存在の同値性を確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a general class of entropy-regularized multi-variate LQG mean field
games (MFGs) in continuous time with $K$ distinct sub-population of agents. We
extend the notion of actions to action distributions (exploratory actions), and
explicitly derive the optimal action distributions for individual agents in the
limiting MFG. We demonstrate that the optimal set of action distributions
yields an $\epsilon$-Nash equilibrium for the finite-population
entropy-regularized MFG. Furthermore, we compare the resulting solutions with
those of classical LQG MFGs and establish the equivalence of their existence.
- Abstract(参考訳): エントロピー規則化された多変数LQG平均フィールドゲーム(MFG)の一般クラスを,エージェントの異なるサブポピュレーションで連続的に研究する。
アクションの概念を行動分布(探索行動)に拡張し、制限mfgにおける個々のエージェントの最適な行動分布を明示的に導出する。
作用分布の最適セットは、有限人口エントロピー規則化されたMFGに対して$\epsilon$-Nash平衡をもたらすことを示した。
さらに、得られた解と古典的なLQG MFGの解を比較し、それらの存在の同値性を確立する。
関連論文リスト
- Bounded Rationality Equilibrium Learning in Mean Field Games [28.027503757302203]
平均場ゲーム (MFGs) は、多人数のエージェント集団において、トリッキーにモデル化される。
量子応答平衡(QRE)の概念を活用することにより、有界な有理性をMFGに組み込む。
また、エージェントの計画的地平線を制限することにより、MFGに有界な有理性を持つ第2の情報源を導入する。
論文 参考訳(メタデータ) (2024-11-11T16:24:03Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - Non-Gaussian work statistics at finite-time driving [0.0]
有限時間における量子相転移によって駆動される多体系の作業分布の特性について検討する。
我々は分布の非ガウス性に注目し、歪度とネゲントロピーという2つの定量的指標を通して特徴付けている。
論文 参考訳(メタデータ) (2022-08-12T10:08:27Z) - KL Divergence Estimation with Multi-group Attribution [25.7757954754825]
Kullback-Leibler (KL) の2つの分布間のばらつきを推定することは、機械学習と情報理論においてよく研究されている。
マルチグループフェアネスを考慮し、サブ人口の寄与を正確に反映したKL分散推定を求める。
論文 参考訳(メタデータ) (2022-02-28T06:54:10Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Individual-Level Inverse Reinforcement Learning for Mean Field Games [16.79251229846642]
Mean Field IRL (MFIRL) は、MFGのための最初の専用のIRLフレームワークであり、協調環境と非協調環境の両方を扱うことができる。
未知のダイナミクスを持つMFGに対して有効な実用的なアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-02-13T20:35:01Z) - GFlowNet Foundations [66.69854262276391]
Generative Flow Networks (GFlowNets) は、多様な候補をアクティブな学習コンテキストでサンプリングする方法として導入された。
GFlowNetのさらなる理論的性質について述べる。
論文 参考訳(メタデータ) (2021-11-17T17:59:54Z) - Robust Learning of Optimal Auctions [84.13356290199603]
本研究では、入札者の評価値のサンプルを逆向きに破損させたり、逆向きに歪んだ分布から引き出すことができる場合に、サンプルから収益-最適マルチバイダオークションを学習する問題について検討する。
我々は,コルモゴロフ-スミルノフ距離における元の分布に対して$alpha$-closeの「全ての真の分布」に対して,収入がほぼ同時に最適であるメカニズムを学習できる新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-13T17:37:21Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z) - Scaling up Mean Field Games with Online Mirror Descent [55.36153467919289]
オンラインミラー Descent (OMD) を用いた平均場ゲーム (MFG) のスケールアップ均衡計算に対処する。
連続時間 OMD は自然かつモチベーションの良い単調性仮定の集合の下でナッシュ平衡に確実に収束することを示す。
様々な単一および多集団MFGに関する徹底的な実験的研究は、OMDがFictitious Play (FP)のような従来のアルゴリズムより優れていることを示している。
論文 参考訳(メタデータ) (2021-02-28T21:28:36Z) - Approximately Solving Mean Field Games via Entropy-Regularized Deep
Reinforcement Learning [33.77849245250632]
非コンスタントな不動点作用素を持つ離散時間有限 MFG は、既存のMFG の文献で典型的に仮定されるような縮約的でないことを示す。
我々は、既存の方法が失敗する近似的固定点への証明可能な収束を求め、近似的ナッシュ平衡の本来の目標に達する。
論文 参考訳(メタデータ) (2021-02-02T16:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。