論文の概要: Mean Field Equilibrium in Multi-Armed Bandit Game with Continuous Reward
- arxiv url: http://arxiv.org/abs/2105.00767v1
- Date: Mon, 3 May 2021 11:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 13:36:28.886153
- Title: Mean Field Equilibrium in Multi-Armed Bandit Game with Continuous Reward
- Title(参考訳): 連続報酬を有するマルチアームバンディットゲームにおける平均場平衡
- Authors: Xiong Wang, Riheng Jia
- Abstract要約: 平均的な効果と相互作用を近似することにより、多数のエージェントに対するマルチアームバンディット(MAB)の分析を容易にする。
マルチエージェントMABのための既存の平均フィールドモデルは、主にトラクタブル分析につながるバイナリ報酬関数を仮定します。
本稿では,連続報酬関数を用いた平均フィールドバンディットゲームについて検討する。
- 参考スコア(独自算出の注目度): 4.2710814397148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean field game facilitates analyzing multi-armed bandit (MAB) for a large
number of agents by approximating their interactions with an average effect.
Existing mean field models for multi-agent MAB mostly assume a binary reward
function, which leads to tractable analysis but is usually not applicable in
practical scenarios. In this paper, we study the mean field bandit game with a
continuous reward function. Specifically, we focus on deriving the existence
and uniqueness of mean field equilibrium (MFE), thereby guaranteeing the
asymptotic stability of the multi-agent system. To accommodate the continuous
reward function, we encode the learned reward into an agent state, which is in
turn mapped to its stochastic arm playing policy and updated using realized
observations. We show that the state evolution is upper semi-continuous, based
on which the existence of MFE is obtained. As the Markov analysis is mainly for
the case of discrete state, we transform the stochastic continuous state
evolution into a deterministic ordinary differential equation (ODE). On this
basis, we can characterize a contraction mapping for the ODE to ensure a unique
MFE for the bandit game. Extensive evaluations validate our MFE
characterization, and exhibit tight empirical regret of the MAB problem.
- Abstract(参考訳): 平均的な効果と相互作用を近似することにより、多数のエージェントに対するマルチアームバンディット(MAB)の分析を容易にする。
既存のマルチエージェントMABの平均場モデルは、主に二項報酬関数を仮定するが、通常は現実的なシナリオでは適用できない。
本稿では,連続報酬関数を用いた平均フィールドバンディットゲームについて検討する。
具体的には,平均場平衡(MFE)の存在と特異性を導出することに集中し,マルチエージェントシステムの漸近安定性を保証する。
継続的な報酬機能に対応するために,学習した報酬をエージェント状態にエンコードし,その結果を確率的アームプレイングポリシーにマッピングし,実効観察を用いて更新する。
状態の進化は上半連続性であり、MFEの存在が得られていることを示す。
マルコフ解析は主に離散状態の場合のため、確率的連続状態の進化を決定論的常微分方程式(ODE)に変換する。
そこで本研究では,ODE の縮退マッピングを特徴付けることで,バンディットゲームに特有の MFE を実現する。
広範囲な評価は,MFEの特徴を検証し,MAB問題に対する厳密な経験的後悔を示す。
関連論文リスト
- Mimicking Better by Matching the Approximate Action Distribution [48.81067017094468]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Understanding the stochastic dynamics of sequential decision-making
processes: A path-integral analysis of multi-armed bandits [7.05949591248206]
マルチアームバンディットモデル(MAB)は、不確実な環境で意思決定を研究する最も一般的なモデルの一つである。
本稿では,MABモデルの解析に統計物理学の手法を用いる。
論文 参考訳(メタデータ) (2022-08-11T09:32:03Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Adversarial Inverse Reinforcement Learning for Mean Field Games [17.392418397388823]
平均場ゲーム(MFG)は、大規模マルチエージェントシステムをモデル化するための数学的に抽出可能なフレームワークを提供する。
本稿では,実証における不確実性に対処可能な新しいフレームワーク,Mean-Field Adversarial IRL(MF-AIRL)を提案する。
論文 参考訳(メタデータ) (2021-04-29T21:03:49Z) - Model Free Reinforcement Learning Algorithm for Stationary Mean field
Equilibrium for Multiple Types of Agents [43.21120427632336]
エージェントが複数の型を持つ無限大地平線上のマルチエージェント戦略相互作用を考える。
各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。
このような相互作用が、ディフェンダーや敵のサイバー攻撃をどうモデル化するかを示す。
論文 参考訳(メタデータ) (2020-12-31T00:12:46Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。