論文の概要: Oracle-free Reinforcement Learning in Mean-Field Games along a Single
Sample Path
- arxiv url: http://arxiv.org/abs/2208.11639v1
- Date: Wed, 24 Aug 2022 16:22:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 13:37:26.527750
- Title: Oracle-free Reinforcement Learning in Mean-Field Games along a Single
Sample Path
- Title(参考訳): 1つのサンプルパスに沿った平均場ゲームにおけるoracleフリー強化学習
- Authors: Muhammad Aneeq uz Zaman, Alec Koppel, Sujay Bhatt, Tamer Ba\c{s}ar
- Abstract要約: 汎用エージェントの単一サンプルパスを用いて平均フィールドと最適ポリシーを推定するアルゴリズムを開発した。
渋滞ゲームにおけるサンドボックス学習アルゴリズムの有効性を実証的に実証した。
- 参考スコア(独自算出の注目度): 5.926203312586109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider online reinforcement learning in Mean-Field Games. In contrast to
the existing works, we alleviate the need for a mean-field oracle by developing
an algorithm that estimates the mean-field and the optimal policy using a
single sample path of the generic agent. We call this Sandbox Learning, as it
can be used as a warm-start for any agent operating in a multi-agent
non-cooperative setting. We adopt a two timescale approach in which an online
fixed-point recursion for the mean-field operates on a slower timescale and in
tandem with a control policy update on a faster timescale for the generic
agent. Under a sufficient exploration condition, we provide finite sample
convergence guarantees in terms of convergence of the mean-field and control
policy to the mean-field equilibrium. The sample complexity of the Sandbox
learning algorithm is $\mathcal{O}(\epsilon^{-4})$. Finally, we empirically
demonstrate effectiveness of the sandbox learning algorithm in a congestion
game.
- Abstract(参考訳): 平均フィールドゲームにおけるオンライン強化学習について考察する。
既存の研究とは対照的に,汎用エージェントの単一サンプルパスを用いて平均フィールドと最適ポリシーを推定するアルゴリズムを開発することにより,平均フィールドオラクルの必要性を緩和する。
これをサンドボックス学習と呼び、マルチエージェント非協調環境で動作しているエージェントのウォームスタートとして使用できる。
我々は、平均場に対するオンライン固定点再帰がより遅い時間スケールで動作し、汎用エージェントのより高速な時間スケールに対する制御ポリシー更新と連動する2つの時間スケールアプローチを採用する。
十分な探索条件下では、平均場と平均場平衡への制御ポリシーの収束の観点から有限サンプル収束保証を提供する。
サンドボックス学習アルゴリズムのサンプル複雑性は$\mathcal{o}(\epsilon^{-4})$である。
最後に,混雑ゲームにおけるサンドボックス学習アルゴリズムの有効性を実証する。
関連論文リスト
- Efficient Learning of POMDPs with Known Observation Model in Average-Reward Setting [56.92178753201331]
我々は,POMDPパラメータを信念に基づくポリシを用いて収集したサンプルから学習することのできる観測・認識スペクトル(OAS)推定手法を提案する。
提案するOAS-UCRLアルゴリズムに対して,OASプロシージャの整合性を示し,$mathcalO(sqrtT log(T)$の残差保証を証明した。
論文 参考訳(メタデータ) (2024-10-02T08:46:34Z) - Finite-Time Analysis for Conflict-Avoidant Multi-Task Reinforcement Learning [21.288881065839007]
本稿では,CA と FC という2つのサブプロデューサの選択肢に基づいて,新しい動的重み付けマルチタスク・アクター・クリティック・アルゴリズム (MTAC) を開発した。
MTAC-CAは、タスク間の最小値改善を最大化する競合回避(CA)更新方向と、MTAC-FCターゲットをはるかに高速な収束速度で見つけることを目的としている。
MT10における実験により,既存のMTRL法よりもアルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-05-25T05:57:46Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Beyond ADMM: A Unified Client-variance-reduced Adaptive Federated
Learning Framework [82.36466358313025]
我々はFedVRAと呼ばれる原始二重FLアルゴリズムを提案し、このアルゴリズムはグローバルモデルの分散還元レベルとバイアスを適応的に制御することができる。
半教師付き画像分類タスクに基づく実験は,既存の手法よりもFedVRAの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-12-03T03:27:51Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Multi-Agent Off-Policy TD Learning: Finite-Time Analysis with
Near-Optimal Sample Complexity and Communication Complexity [13.100926925535578]
マルチエージェントオフポリシーTD学習のための2つの分散型TD補正(TDC)アルゴリズムを開発しています。
提案アルゴリズムは,エージェントの行動,ポリシー,報酬の完全なプライバシを保持し,サンプリングのばらつきと通信頻度を低減するためにミニバッチサンプリングを採用する。
論文 参考訳(メタデータ) (2021-03-24T12:48:08Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。