論文の概要: Model-Based RL for Mean-Field Games is not Statistically Harder than
Single-Agent RL
- arxiv url: http://arxiv.org/abs/2402.05724v1
- Date: Thu, 8 Feb 2024 14:54:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:41:38.802846
- Title: Model-Based RL for Mean-Field Games is not Statistically Harder than
Single-Agent RL
- Title(参考訳): 平均フィールドゲームのためのモデルベースRLはシングルエージェントRLよりも統計的に困難ではない
- Authors: Jiawei Huang, Niao He, Andreas Krause
- Abstract要約: モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
- 参考スコア(独自算出の注目度): 64.90038012690403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the sample complexity of reinforcement learning (RL) in Mean-Field
Games (MFGs) with model-based function approximation that requires strategic
exploration to find a Nash Equilibrium policy. We introduce the Partial
Model-Based Eluder Dimension (P-MBED), a more effective notion to characterize
the model class complexity. Notably, P-MBED measures the complexity of the
single-agent model class converted from the given mean-field model class, and
potentially, can be exponentially lower than the MBED proposed by
\citet{huang2023statistical}. We contribute a model elimination algorithm
featuring a novel exploration strategy and establish sample complexity results
polynomial w.r.t.~P-MBED. Crucially, our results reveal that, under the basic
realizability and Lipschitz continuity assumptions, \emph{learning Nash
Equilibrium in MFGs is no more statistically challenging than solving a
logarithmic number of single-agent RL problems}. We further extend our results
to Multi-Type MFGs, generalizing from conventional MFGs and involving multiple
types of agents. This extension implies statistical tractability of a broader
class of Markov Games through the efficacy of mean-field approximation.
Finally, inspired by our theoretical algorithm, we present a heuristic approach
with improved computational efficiency and empirically demonstrate its
effectiveness.
- Abstract(参考訳): 平均フィールドゲーム(MFG)における強化学習(RL)のサンプル複雑性とモデルに基づく関数近似について検討し,Nash平衡ポリシーの探索に戦略的探索を必要とする。
モデルクラスの複雑性を特徴付けるためのより効果的な概念である,部分モデルに基づくeluder次元(p-mbed)を導入する。
特に、P-MBEDは与えられた平均場モデルクラスから変換された単一エージェントモデルクラスの複雑性を測定し、潜在的には \citet{huang2023statistical} によって提案されたMBEDよりも指数関数的に低い。
我々は,新しい探索戦略を特徴とするモデル除去アルゴリズムに寄与し,サンプル複雑性結果多項式 w.r.t.~P-MBED を確立する。
結論として,mfg における学習ナッシュ均衡は,単エージェント rl 問題の対数数を解くよりも統計的に難しいものではないことを,基礎的実現可能性とリプシッツ連続性仮定の下で明らかにしている。
従来のMFGから一般化し,複数種類のエージェントを含むマルチタイプMFGにさらに拡張する。
この拡張は平均場近似の有効性を通し、より広いクラスのマルコフゲームに対する統計的扱い可能性を意味する。
最後に,理論アルゴリズムに触発され,計算効率を向上し,その効果を実証するヒューリスティックな手法を提案する。
関連論文リスト
- Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。
本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文 参考訳(メタデータ) (2024-10-01T13:53:44Z) - Sample-Efficient Multi-Agent RL: An Optimization Perspective [103.35353196535544]
一般関数近似に基づく汎用マルコフゲーム(MG)のためのマルチエージェント強化学習(MARL)について検討した。
汎用MGに対するマルチエージェントデカップリング係数(MADC)と呼ばれる新しい複雑性尺度を導入する。
我々のアルゴリズムは既存の研究に匹敵するサブリニアな後悔を与えることを示す。
論文 参考訳(メタデータ) (2023-10-10T01:39:04Z) - Partially Observable Multi-Agent Reinforcement Learning with Information Sharing [33.145861021414184]
部分的に観察可能なゲーム(POSG)の一般的な枠組みにおける証明可能なマルチエージェント強化学習(RL)について検討する。
我々は,エージェント間での情報共有の可能性,経験的マルチエージェントRLにおける一般的な実践,コミュニケーションを伴うマルチエージェント制御システムの標準モデルを活用することを提唱する。
論文 参考訳(メタデータ) (2023-08-16T23:42:03Z) - On the Statistical Efficiency of Mean-Field Reinforcement Learning with General Function Approximation [20.66437196305357]
平均フィールド制御(MFC)および平均フィールドゲーム(MFG)における強化学習の基本統計的効率を一般モデルに基づく関数近似を用いて検討する。
我々は平均場モデルクラス固有の複雑さを特徴付ける平均場モデルベースエルダー次元(MF-MBED)という新しい概念を導入する。
論文 参考訳(メタデータ) (2023-05-18T20:00:04Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Model-based Multi-agent Policy Optimization with Adaptive Opponent-wise
Rollouts [52.844741540236285]
マルチエージェント強化学習(MARL)におけるモデルベース手法について検討する。
AORPO(Adaptive Opponent-wise Rollout Policy)と呼ばれる新しい分散型モデルベースのMARL法を提案する。
論文 参考訳(メタデータ) (2021-05-07T16:20:22Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。