論文の概要: Actor-Critic learning for mean-field control in continuous time
- arxiv url: http://arxiv.org/abs/2303.06993v1
- Date: Mon, 13 Mar 2023 10:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 15:36:22.475464
- Title: Actor-Critic learning for mean-field control in continuous time
- Title(参考訳): 連続時間における平均場制御のためのアクタ-クリティック学習
- Authors: Noufel Frikha (UP1 UFR27), Maximilien Germain (LPSM (UMR\_8001)),
Mathieu Lauri\`ere, Huy\^en Pham (LPSM (UMR\_8001)), Xuanye Song (LPSM
(UMR\_8001))
- Abstract要約: 強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴うランダム化ポリシーを考えることにより、値関数の勾配期待表現を導出する。
線形四進平均場フレームワークでは、ワッサーシュタイン空間上で定義されたアクターと批評家関数の正確なパラメトリションを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study policy gradient for mean-field control in continuous time in a
reinforcement learning setting. By considering randomised policies with entropy
regularisation, we derive a gradient expectation representation of the value
function, which is amenable to actor-critic type algorithms, where the value
functions and the policies are learnt alternately based on observation samples
of the state and model-free estimation of the population state distribution,
either by offline or online learning. In the linear-quadratic mean-field
framework, we obtain an exact parametrisation of the actor and critic functions
defined on the Wasserstein space. Finally, we illustrate the results of our
algorithms with some numerical experiments on concrete examples.
- Abstract(参考訳): 強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴う無作為化ポリシーを考えることにより, オフライン学習とオンライン学習のいずれによっても, 状態の観察サンプルと人口分布のモデルフリー推定に基づいて, 価値関数とポリシーを交互に学習するアクター-批判型アルゴリズムに適合する値関数の勾配期待表現を導出する。
線形二次平均場フレームワークでは、ワッサースタイン空間上で定義されるアクターと批判関数の正確なパラメータを求める。
最後に,具体例について数値実験を行い,本アルゴリズムの結果について述べる。
関連論文リスト
- Full error analysis of policy gradient learning algorithms for exploratory linear quadratic mean-field control problem in continuous time with common noise [0.0]
政策勾配学習(PG)について検討し,まずモデルベース環境での収束を実証する。
モデルフリー環境では,2点勾配推定を用いたPGアルゴリズムの線形収束とサンプル複雑性を大域的に証明する。
この設定では、パラメータ化された最適ポリシーは、状態と人口分布のサンプルから学習される。
論文 参考訳(メタデータ) (2024-08-05T14:11:51Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Actor critic learning algorithms for mean-field control with moment
neural networks [0.0]
我々は,平均場制御問題の解法として,新しいポリシー勾配とアクタ批判アルゴリズムを開発した。
アクター(政治)と批評家(価値関数)の両方の学習は、モーメントニューラルネットワーク関数のクラスによって促進される。
論文 参考訳(メタデータ) (2023-09-08T13:29:57Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。