論文の概要: Mean Field Equilibrium in Multi-Armed Bandit Game with Continuous Reward
- arxiv url: http://arxiv.org/abs/2105.00767v1
- Date: Mon, 3 May 2021 11:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-04 13:36:28.886153
- Title: Mean Field Equilibrium in Multi-Armed Bandit Game with Continuous Reward
- Title(参考訳): 連続報酬を有するマルチアームバンディットゲームにおける平均場平衡
- Authors: Xiong Wang, Riheng Jia
- Abstract要約: 平均的な効果と相互作用を近似することにより、多数のエージェントに対するマルチアームバンディット(MAB)の分析を容易にする。
マルチエージェントMABのための既存の平均フィールドモデルは、主にトラクタブル分析につながるバイナリ報酬関数を仮定します。
本稿では,連続報酬関数を用いた平均フィールドバンディットゲームについて検討する。
- 参考スコア(独自算出の注目度): 4.2710814397148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mean field game facilitates analyzing multi-armed bandit (MAB) for a large
number of agents by approximating their interactions with an average effect.
Existing mean field models for multi-agent MAB mostly assume a binary reward
function, which leads to tractable analysis but is usually not applicable in
practical scenarios. In this paper, we study the mean field bandit game with a
continuous reward function. Specifically, we focus on deriving the existence
and uniqueness of mean field equilibrium (MFE), thereby guaranteeing the
asymptotic stability of the multi-agent system. To accommodate the continuous
reward function, we encode the learned reward into an agent state, which is in
turn mapped to its stochastic arm playing policy and updated using realized
observations. We show that the state evolution is upper semi-continuous, based
on which the existence of MFE is obtained. As the Markov analysis is mainly for
the case of discrete state, we transform the stochastic continuous state
evolution into a deterministic ordinary differential equation (ODE). On this
basis, we can characterize a contraction mapping for the ODE to ensure a unique
MFE for the bandit game. Extensive evaluations validate our MFE
characterization, and exhibit tight empirical regret of the MAB problem.
- Abstract(参考訳): 平均的な効果と相互作用を近似することにより、多数のエージェントに対するマルチアームバンディット(MAB)の分析を容易にする。
既存のマルチエージェントMABの平均場モデルは、主に二項報酬関数を仮定するが、通常は現実的なシナリオでは適用できない。
本稿では,連続報酬関数を用いた平均フィールドバンディットゲームについて検討する。
具体的には,平均場平衡(MFE)の存在と特異性を導出することに集中し,マルチエージェントシステムの漸近安定性を保証する。
継続的な報酬機能に対応するために,学習した報酬をエージェント状態にエンコードし,その結果を確率的アームプレイングポリシーにマッピングし,実効観察を用いて更新する。
状態の進化は上半連続性であり、MFEの存在が得られていることを示す。
マルコフ解析は主に離散状態の場合のため、確率的連続状態の進化を決定論的常微分方程式(ODE)に変換する。
そこで本研究では,ODE の縮退マッピングを特徴付けることで,バンディットゲームに特有の MFE を実現する。
広範囲な評価は,MFEの特徴を検証し,MAB問題に対する厳密な経験的後悔を示す。
関連論文リスト
- Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - A Single Online Agent Can Efficiently Learn Mean Field Games [16.00164239349632]
平均場ゲーム (MFGs) は大規模人口システムの振る舞いをモデル化するための有望なフレームワークである。
本稿では,オンラインサンプルを用いてMFNEを学習できるオンライン単エージェントモデルフリー学習方式を提案する。
論文 参考訳(メタデータ) (2024-05-05T16:38:04Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Regularization of the policy updates for stabilizing Mean Field Games [0.2348805691644085]
本研究は,非協調型マルチエージェント強化学習(MARL)の研究である。
複数のエージェントが同じ環境で相互作用し、個々のリターンを最大化するMARL。
提案アルゴリズムは,MF-PPO (Mean Field Proximal Policy Optimization) と命名し,OpenSpielフレームワークにおける提案手法の有効性を実証的に示す。
論文 参考訳(メタデータ) (2023-04-04T05:45:42Z) - Latent State Marginalization as a Low-cost Approach for Improving
Exploration [79.12247903178934]
我々はMaxEntフレームワークにおける潜在変数ポリシーの採用を提案する。
我々は、潜在変数ポリシーが、潜在信念状態を持つ世界モデルの下で自然に現れることを示す。
提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。
論文 参考訳(メタデータ) (2022-10-03T15:09:12Z) - Understanding the stochastic dynamics of sequential decision-making
processes: A path-integral analysis of multi-armed bandits [7.05949591248206]
マルチアームバンディットモデル(MAB)は、不確実な環境で意思決定を研究する最も一般的なモデルの一つである。
本稿では,MABモデルの解析に統計物理学の手法を用いる。
論文 参考訳(メタデータ) (2022-08-11T09:32:03Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z) - Model Free Reinforcement Learning Algorithm for Stationary Mean field
Equilibrium for Multiple Types of Agents [43.21120427632336]
エージェントが複数の型を持つ無限大地平線上のマルチエージェント戦略相互作用を考える。
各エージェントはプライベートな状態を持ち、状態は異なるタイプのエージェントの状態の分布とエージェントのアクションに応じて進化する。
このような相互作用が、ディフェンダーや敵のサイバー攻撃をどうモデル化するかを示す。
論文 参考訳(メタデータ) (2020-12-31T00:12:46Z) - Global Convergence of Policy Gradient for Linear-Quadratic Mean-Field
Control/Game in Continuous Time [109.06623773924737]
線形二乗平均場制御とゲームに対するポリシー勾配法について検討する。
線形速度で最適解に収束し, 合成シミュレーションにより検証した。
論文 参考訳(メタデータ) (2020-08-16T06:34:11Z) - Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。
我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文 参考訳(メタデータ) (2020-03-05T21:29:27Z) - Sequential Monte Carlo Bandits [1.9205272414658485]
我々は、連続モンテカルロ法(SMC)を用いることで、ベイジアン多重武装バンディット(MAB)アルゴリズムを元の設定を超えて拡張する。
MABは、長期的な支払いを最大化するポリシーを学ぶことを目標とするシーケンシャルな意思決定問題である。
本稿では,線形力学系を用いて時間力学をモデル化した非定常帯域について述べる。
論文 参考訳(メタデータ) (2018-08-08T20:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。