論文の概要: Actor-Critic learning for mean-field control in continuous time
- arxiv url: http://arxiv.org/abs/2303.06993v1
- Date: Mon, 13 Mar 2023 10:49:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 15:36:22.475464
- Title: Actor-Critic learning for mean-field control in continuous time
- Title(参考訳): 連続時間における平均場制御のためのアクタ-クリティック学習
- Authors: Noufel Frikha (UP1 UFR27), Maximilien Germain (LPSM (UMR\_8001)),
Mathieu Lauri\`ere, Huy\^en Pham (LPSM (UMR\_8001)), Xuanye Song (LPSM
(UMR\_8001))
- Abstract要約: 強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴うランダム化ポリシーを考えることにより、値関数の勾配期待表現を導出する。
線形四進平均場フレームワークでは、ワッサーシュタイン空間上で定義されたアクターと批評家関数の正確なパラメトリションを得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study policy gradient for mean-field control in continuous time in a
reinforcement learning setting. By considering randomised policies with entropy
regularisation, we derive a gradient expectation representation of the value
function, which is amenable to actor-critic type algorithms, where the value
functions and the policies are learnt alternately based on observation samples
of the state and model-free estimation of the population state distribution,
either by offline or online learning. In the linear-quadratic mean-field
framework, we obtain an exact parametrisation of the actor and critic functions
defined on the Wasserstein space. Finally, we illustrate the results of our
algorithms with some numerical experiments on concrete examples.
- Abstract(参考訳): 強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴う無作為化ポリシーを考えることにより, オフライン学習とオンライン学習のいずれによっても, 状態の観察サンプルと人口分布のモデルフリー推定に基づいて, 価値関数とポリシーを交互に学習するアクター-批判型アルゴリズムに適合する値関数の勾配期待表現を導出する。
線形二次平均場フレームワークでは、ワッサースタイン空間上で定義されるアクターと批判関数の正確なパラメータを求める。
最後に,具体例について数値実験を行い,本アルゴリズムの結果について述べる。
関連論文リスト
- Actor critic learning algorithms for mean-field control with moment
neural networks [0.0]
我々は,平均場制御問題の解法として,新しいポリシー勾配とアクタ批判アルゴリズムを開発した。
アクター(政治)と批評家(価値関数)の両方の学習は、モーメントニューラルネットワーク関数のクラスによって促進される。
論文 参考訳(メタデータ) (2023-09-08T13:29:57Z) - Value-Distributional Model-Based Reinforcement Learning [63.32053223422317]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - How to Learn a Useful Critic? Model-based Action-Gradient-Estimator
Policy Optimization [10.424426548124696]
本稿では,政策勾配理論に基づくモデルに基づくアクター批判アルゴリズムであるMAGEを提案する。
MAGEは学習されたダイナミクスを通じて逆伝搬し、時間差学習において勾配目標を計算する。
モデルフリーおよびモデルベースベースラインと比較して,アルゴリズムの効率性を示す。
論文 参考訳(メタデータ) (2020-04-29T16:30:53Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。