Fugu-MT 論文翻訳(概要): Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation

論文の概要: Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation

arxiv url: http://arxiv.org/abs/2408.08192v1
Date: Thu, 15 Aug 2024 14:51:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 13:36:33.525978
Title: Stochastic Semi-Gradient Descent for Learning Mean Field Games with Population-Aware Function Approximation
Title（参考訳）: 個体群対応関数近似を用いた平均フィールドゲーム学習のための確率的半グラディエントDescent
Authors: Chenyu Zhang, Xu Chen, Xuan Di,
Abstract要約: 平均場ゲーム (MFGs) は人口分布を用いた大規模マルチエージェントシステム内の相互作用をモデル化する。本稿では,MFGのオンライン学習手法について考察する。本研究では, 値関数と人口分布の両方に対する線形関数近似 (LFA) を開発し, 連続状態作用空間上でのMFGに対する最初の集団認識型LFAを実現する。
参考スコア（独自算出の注目度）: 16.00164239349632
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Mean field games (MFGs) model the interactions within a large-population multi-agent system using the population distribution. Traditional learning methods for MFGs are based on fixed-point iteration (FPI), which calculates best responses and induced population distribution separately and sequentially. However, FPI-type methods suffer from inefficiency and instability, due to oscillations caused by the forward-backward procedure. This paper considers an online learning method for MFGs, where an agent updates its policy and population estimates simultaneously and fully asynchronously, resulting in a simple stochastic gradient descent (SGD) type method called SemiSGD. Not only does SemiSGD exhibit numerical stability and efficiency, but it also provides a novel perspective by treating the value function and population distribution as a unified parameter. We theoretically show that SemiSGD directs this unified parameter along a descent direction to the mean field equilibrium. Motivated by this perspective, we develop a linear function approximation (LFA) for both the value function and the population distribution, resulting in the first population-aware LFA for MFGs on continuous state-action space. Finite-time convergence and approximation error analysis are provided for SemiSGD equipped with population-aware LFA.
Abstract（参考訳）: 平均場ゲーム (MFGs) は人口分布を用いた大規模マルチエージェントシステム内の相互作用をモデル化する。 MFGの伝統的な学習方法は固定点反復(FPI)に基づいており、最適な応答と誘導された集団分布を個別に逐次的に計算する。しかし、FPI方式の手法は、前向きの手順によって生じる振動により、非効率性と不安定性に悩まされる。本稿では,MFGのオンライン学習手法について考察し,エージェントがそのポリシーと人口推定を同時に,かつ完全に非同期に更新することで,SemiSGDと呼ばれる単純な確率勾配勾配(SGD)方式を実現する。 SemiSGDは数値安定性と効率性を示すだけでなく、値関数と人口分布を統一パラメータとして扱うことにより、新しい視点を提供する。理論的には、SemiSGDはこの統一パラメータを降下方向に沿って平均場平衡に向けることを示す。この観点から、我々は、値関数と人口分布の両方に対する線形関数近似(LFA)を開発し、その結果、連続的な状態-作用空間上でのMFGに対する最初の人口認識LFAとなる。人口認識型LFAを備えたSemiSGDに対して、有限時間収束と近似誤差解析を行う。

関連論文リスト

MF-LLM: Simulating Collective Decision Dynamics via a Mean-Field Large Language Model Framework [53.82097200295448]
Mean-Field LLM (MF-LLM) フレームワークは、マイクロレベルの決定とマクロレベルの集団の間のフィードバックループを明示的にモデル化する。 MF-LLMは、個人状態とグループレベルの情報に基づいて個別の行動を生成するポリシーモデルと、人口分布を更新する平均フィールドモデルである。実世界の社会データセット上でMF-LLMを評価し,非平均場ベースラインに対するKLの人口分布への分散を47%削減する。
論文参考訳（メタデータ） (2025-04-30T12:41:51Z)
Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space [72.52365911990935]
本稿では,MDPの線形性を維持する新しいDGMフレームワークであるBellman Diffusionを紹介する。この結果から,ベルマン拡散は分布RLタスクにおける従来のヒストグラムベースベースラインよりも1.5倍高速に収束し,精度の高い画像生成装置であることがわかった。
論文参考訳（メタデータ） (2024-10-02T17:53:23Z)
Stable Heterogeneous Treatment Effect Estimation across Out-of-Distribution Populations [27.163528362979594]
不均一治療効果(HTE)の推定は、個人またはグループ間の治療効果の変化を理解するために不可欠である。既存のHTE推定手法の多くは、処理単位と制御単位間の共著者の不均衡分布によって引き起こされる選択バイアスに対処することに焦点を当てている。人口分布を連続的に変化させる現実世界のアプリケーションでは、分布外人口をまたいだ安定したHTE推定が緊急に必要である。
論文参考訳（メタデータ） (2024-07-03T13:03:51Z)
FUSE: Fast Unified Simulation and Estimation for PDEs [11.991297011923004]
同じフレームワーク内で両方の問題を解決することは、正確性と堅牢性において一貫した利益をもたらす可能性がある、と私たちは主張する。本研究は,本手法の全身血行動態シミュレーションにおける連続的および離散的バイオマーカーの予測能力について述べる。
論文参考訳（メタデータ） (2024-05-23T13:37:26Z)
A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文参考訳（メタデータ） (2024-05-05T16:38:04Z)
Collaborative Heterogeneous Causal Inference Beyond Meta-analysis [68.4474531911361]
異種データを用いた因果推論のための協調的逆確率スコア推定器を提案する。異質性の増加に伴うメタアナリシスに基づく手法に対して,本手法は有意な改善を示した。
論文参考訳（メタデータ） (2024-04-24T09:04:36Z)
Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文参考訳（メタデータ） (2023-12-05T14:44:58Z)
Depersonalized Federated Learning: Tackling Statistical Heterogeneity by Alternating Stochastic Gradient Descent [6.394263208820851]
フェデレート・ラーニング(FL)は、デバイスがデータ共有なしでインテリジェントな推論のために共通の機械学習(ML)モデルをトレーニングすることを可能にする。様々な共役者によって保持される生データは、常に不特定に分散される。本稿では,このプロセスのデスピードにより統計的に大幅に最適化できる新しいFLを提案する。
論文参考訳（メタデータ） (2022-10-07T10:30:39Z)
Domain Adaptation meets Individual Fairness. And they get along [48.95808607591299]
アルゴリズムフェアネスの介入は、機械学習モデルが分散シフトを克服するのに役立つことを示す。特に,個人フェアネス(IF)の適切な概念を強制することで,MLモデルの分布外精度が向上することを示す。
論文参考訳（メタデータ） (2022-05-01T16:19:55Z)
A proof of convergence for the gradient descent optimization method with random initializations in the training of neural networks with ReLU activation for piecewise linear target functions [3.198144010381572]
勾配降下(GD)型最適化法は、ニューラルネットワーク(ANN)を修正線形単位(ReLU)アクティベーションで訓練する標準的な手法である。
論文参考訳（メタデータ） (2021-08-10T12:01:37Z)
Loss function based second-order Jensen inequality and its application to particle variational inference [112.58907653042317]
粒子変分推論(PVI)は、後部分布の実験的近似としてモデルのアンサンブルを用いる。 PVIは、最適化されたモデルの多様性を保証するために、各モデルを反発力で反復的に更新する。我々は,新たな一般化誤差を導出し,モデルの多様性を高めて低減できることを示す。
論文参考訳（メタデータ） (2021-06-09T12:13:51Z)
Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文参考訳（メタデータ） (2021-02-15T16:59:30Z)
Near Optimality of Finite Memory Feedback Policies in Partially Observed Markov Decision Processes [0.0]
システム力学と測定チャネルモデルが知られていると仮定したPOMDPの計画問題について検討する。軽度非線形フィルタ安定性条件下で近似的信念モデルに対する最適ポリシーを求める。また、有限ウィンドウメモリサイズと近似誤差境界を関連づけた収束結果のレートを確立する。
論文参考訳（メタデータ） (2020-10-15T00:37:51Z)
Learning Invariant Representations and Risks for Semi-supervised Domain Adaptation [109.73983088432364]
半教師付きドメイン適応(Semi-DA)の設定の下で不変表現とリスクを同時に学習することを目的とした最初の手法を提案する。共同で textbfLearning textbfInvariant textbfRepresentations と textbfRisks の LIRR アルゴリズムを導入する。
論文参考訳（メタデータ） (2020-10-09T15:42:35Z)
Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文参考訳（メタデータ） (2020-08-16T06:34:11Z)
Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC) 半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文参考訳（メタデータ） (2020-07-13T02:52:18Z)
A maximum-entropy approach to off-policy evaluation in average-reward MDPs [54.967872716145656]
この研究は、無限水平非カウントマルコフ決定過程(MDPs)における関数近似を伴うオフ・ポリティ・アセスメント(OPE)に焦点を当てる。提案手法は,第1の有限サンプル OPE 誤差境界であり,既存の結果がエピソードおよびディスカウントケースを超えて拡張される。この結果から,教師あり学習における最大エントロピー的アプローチを並列化して,十分な統計値を持つ指数関数型家族分布が得られた。
論文参考訳（メタデータ） (2020-06-17T18:13:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。