論文の概要: Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation
- arxiv url: http://arxiv.org/abs/2408.08192v1
- Date: Thu, 15 Aug 2024 14:51:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 13:36:33.525978
- Title: Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation
- Title(参考訳): 個体群対応関数近似を用いた平均フィールドゲーム学習のための確率的半グラディエントDescent
- Authors: Chenyu Zhang, Xu Chen, Xuan Di,
- Abstract要約: 平均場ゲーム (MFGs) は人口分布を用いた大規模マルチエージェントシステム内の相互作用をモデル化する。
本稿では,MFGのオンライン学習手法について考察する。
本研究では, 値関数と人口分布の両方に対する線形関数近似 (LFA) を開発し, 連続状態作用空間上でのMFGに対する最初の集団認識型LFAを実現する。
- 参考スコア(独自算出の注目度): 16.00164239349632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean field games (MFGs) model the interactions within a large-population multi-agent system using the population distribution. Traditional learning methods for MFGs are based on fixed-point iteration (FPI), which calculates best responses and induced population distribution separately and sequentially. However, FPI-type methods suffer from inefficiency and instability, due to oscillations caused by the forward-backward procedure. This paper considers an online learning method for MFGs, where an agent updates its policy and population estimates simultaneously and fully asynchronously, resulting in a simple stochastic gradient descent (SGD) type method called SemiSGD. Not only does SemiSGD exhibit numerical stability and efficiency, but it also provides a novel perspective by treating the value function and population distribution as a unified parameter. We theoretically show that SemiSGD directs this unified parameter along a descent direction to the mean field equilibrium. Motivated by this perspective, we develop a linear function approximation (LFA) for both the value function and the population distribution, resulting in the first population-aware LFA for MFGs on continuous state-action space. Finite-time convergence and approximation error analysis are provided for SemiSGD equipped with population-aware LFA.
- Abstract(参考訳): 平均場ゲーム (MFGs) は人口分布を用いた大規模マルチエージェントシステム内の相互作用をモデル化する。
MFGの伝統的な学習方法は固定点反復(FPI)に基づいており、最適な応答と誘導された集団分布を個別に逐次的に計算する。
しかし、FPI方式の手法は、前向きの手順によって生じる振動により、非効率性と不安定性に悩まされる。
本稿では,MFGのオンライン学習手法について考察し,エージェントがそのポリシーと人口推定を同時に,かつ完全に非同期に更新することで,SemiSGDと呼ばれる単純な確率勾配勾配(SGD)方式を実現する。
SemiSGDは数値安定性と効率性を示すだけでなく、値関数と人口分布を統一パラメータとして扱うことにより、新しい視点を提供する。
理論的には、SemiSGDはこの統一パラメータを降下方向に沿って平均場平衡に向けることを示す。
この観点から、我々は、値関数と人口分布の両方に対する線形関数近似(LFA)を開発し、その結果、連続的な状態-作用空間上でのMFGに対する最初の人口認識LFAとなる。
人口認識型LFAを備えたSemiSGDに対して、有限時間収束と近似誤差解析を行う。
関連論文リスト
- Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。
この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文 参考訳(メタデータ) (2024-10-02T17:53:23Z) - Stable Heterogeneous Treatment Effect Estimation across Out-of-Distribution Populations [27.163528362979594]
不均一治療効果(HTE)の推定は、個人またはグループ間の治療効果の変化を理解するために不可欠である。
既存のHTE推定手法の多くは、処理単位と制御単位間の共著者の不均衡分布によって引き起こされる選択バイアスに対処することに焦点を当てている。
人口分布を連続的に変化させる現実世界のアプリケーションでは、分布外人口をまたいだ安定したHTE推定が緊急に必要である。
論文 参考訳(メタデータ) (2024-07-03T13:03:51Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。
異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文 参考訳(メタデータ) (2024-04-24T09:04:36Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Depersonalized Federated Learning: Tackling Statistical Heterogeneity by
Alternating Stochastic Gradient Descent [6.394263208820851]
フェデレート・ラーニング(FL)は、デバイスがデータ共有なしでインテリジェントな推論のために共通の機械学習(ML)モデルをトレーニングすることを可能にする。
様々な共役者によって保持される生データは、常に不特定に分散される。
本稿では,このプロセスのデスピードにより統計的に大幅に最適化できる新しいFLを提案する。
論文 参考訳(メタデータ) (2022-10-07T10:30:39Z) - Domain Adaptation meets Individual Fairness. And they get along [48.95808607591299]
アルゴリズムフェアネスの介入は、機械学習モデルが分散シフトを克服するのに役立つことを示す。
特に,個人フェアネス(IF)の適切な概念を強制することで,MLモデルの分布外精度が向上することを示す。
論文 参考訳(メタデータ) (2022-05-01T16:19:55Z) - A proof of convergence for the gradient descent optimization method with
random initializations in the training of neural networks with ReLU
activation for piecewise linear target functions [3.198144010381572]
勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。
論文 参考訳(メタデータ) (2021-08-10T12:01:37Z) - Loss function based second-order Jensen inequality and its application
to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。
PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。
我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文 参考訳(メタデータ) (2021-06-09T12:13:51Z) - Learning Invariant Representations and Risks for Semi-supervised Domain
Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。
共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文 参考訳(メタデータ) (2020-10-09T15:42:35Z) - A maximum-entropy approach to off-policy evaluation in average-reward
MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。
提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。
この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文 参考訳(メタデータ) (2020-06-17T18:13:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。