論文の概要: Actor critic learning algorithms for mean-field control with moment
neural networks
- arxiv url: http://arxiv.org/abs/2309.04317v1
- Date: Fri, 8 Sep 2023 13:29:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 13:23:25.910678
- Title: Actor critic learning algorithms for mean-field control with moment
neural networks
- Title(参考訳): モーメントニューラルネットワークを用いた平均場制御のためのアクタ批判学習アルゴリズム
- Authors: Huy\^en Pham and Xavier Warin
- Abstract要約: 我々は,平均場制御問題の解法として,新しいポリシー勾配とアクタ批判アルゴリズムを開発した。
アクター(政治)と批評家(価値関数)の両方の学習は、モーメントニューラルネットワーク関数のクラスによって促進される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a new policy gradient and actor-critic algorithm for solving
mean-field control problems within a continuous time reinforcement learning
setting. Our approach leverages a gradient-based representation of the value
function, employing parametrized randomized policies. The learning for both the
actor (policy) and critic (value function) is facilitated by a class of moment
neural network functions on the Wasserstein space of probability measures, and
the key feature is to sample directly trajectories of distributions. A central
challenge addressed in this study pertains to the computational treatment of an
operator specific to the mean-field framework. To illustrate the effectiveness
of our methods, we provide a comprehensive set of numerical results. These
encompass diverse examples, including multi-dimensional settings and nonlinear
quadratic mean-field control problems with controlled volatility.
- Abstract(参考訳): 我々は,連続時間強化学習環境において,平均場制御問題を解くための新しいポリシー勾配とアクタ批判アルゴリズムを開発した。
本手法では,パラメータ化されたランダム化ポリシーを用いて,値関数の勾配に基づく表現を行う。
アクター(政治)と批評家(価値関数)の両方の学習は、確率測度のワッサーシュタイン空間上のモーメントニューラルネットワーク関数のクラスによって促進され、主要な特徴は分布の直接軌跡をサンプリングすることである。
本研究における中心的な課題は,平均場フレームワークに特有の演算子の計算処理に関するものである。
提案手法の有効性を説明するため,解析結果の包括的セットを提供する。
これらには多次元設定や非線形二次平均場制御問題など、ボラティリティ制御を含む多様な例がある。
関連論文リスト
- Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。
本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:02:44Z) - Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning [13.908826484332282]
マルチタスク強化学習(Multi-task reinforcement learning, RL)は、複数のタスクを同時に効果的に解決する単一のポリシーを見つけることを目的としている。
本稿では,マルチタスクRLの制約付き定式化を行い,各タスクのパフォーマンスに制約が課せられるタスク間のポリシーの平均性能を最大化することを目的とする。
論文 参考訳(メタデータ) (2024-05-03T19:43:30Z) - Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks [94.2860766709971]
統計的に同一性を持つ無線ネットワークにおける自己回帰的マルコフ過程のサンプリングとリモート推定の課題に対処する。
我々のゴールは、分散化されたスケーラブルサンプリングおよび送信ポリシーを用いて、時間平均推定誤差と/または情報の年齢を最小化することである。
論文 参考訳(メタデータ) (2024-04-04T06:24:11Z) - Actor-Critic learning for mean-field control in continuous time [0.0]
強化学習環境における平均場制御のための政策勾配を連続的に検討する。
エントロピー正規化を伴うランダム化ポリシーを考えることにより、値関数の勾配期待表現を導出する。
線形四進平均場フレームワークでは、ワッサーシュタイン空間上で定義されたアクターと批評家関数の正確なパラメトリションを得る。
論文 参考訳(メタデータ) (2023-03-13T10:49:25Z) - Wasserstein Flow Meets Replicator Dynamics: A Mean-Field Analysis of Representation Learning in Actor-Critic [137.04558017227583]
ニューラルネットワークによって強化されたアクター・クリティカル(AC)アルゴリズムは、近年、かなりの成功を収めている。
我々は,特徴量に基づくニューラルACの進化と収束について,平均場の観点から考察する。
神経性交流は,大域的最適政策をサブ線形速度で求める。
論文 参考訳(メタデータ) (2021-12-27T06:09:50Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。