論文の概要: Policy Evaluation in Distributional LQR
- arxiv url: http://arxiv.org/abs/2303.13657v1
- Date: Thu, 23 Mar 2023 20:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 16:42:02.216776
- Title: Policy Evaluation in Distributional LQR
- Title(参考訳): 分散LQRにおける政策評価
- Authors: Zifan Wang, Yulong Gao, Siyi Wang, Michael M. Zavlanos, Alessandro
Abate and Karl H. Johansson
- Abstract要約: ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 70.63903506291383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distributional reinforcement learning (DRL) enhances the understanding of the
effects of the randomness in the environment by letting agents learn the
distribution of a random return, rather than its expected value as in standard
RL. At the same time, a main challenge in DRL is that policy evaluation in DRL
typically relies on the representation of the return distribution, which needs
to be carefully designed. In this paper, we address this challenge for a
special class of DRL problems that rely on linear quadratic regulator (LQR) for
control, advocating for a new distributional approach to LQR, which we call
\emph{distributional LQR}. Specifically, we provide a closed-form expression of
the distribution of the random return which, remarkably, is applicable to all
exogenous disturbances on the dynamics, as long as they are independent and
identically distributed (i.i.d.). While the proposed exact return distribution
consists of infinitely many random variables, we show that this distribution
can be approximated by a finite number of random variables, and the associated
approximation error can be analytically bounded under mild assumptions. Using
the approximate return distribution, we propose a zeroth-order policy gradient
algorithm for risk-averse LQR using the Conditional Value at Risk (CVaR) as a
measure of risk. Numerical experiments are provided to illustrate our
theoretical results.
- Abstract(参考訳): 分散強化学習(DRL)は、標準RLのような期待値ではなく、ランダムリターンの分布をエージェントに学習させることにより、環境におけるランダム性の影響の理解を高める。
同時に、DRLの主な課題は、DRLにおけるポリシー評価が一般的に、慎重に設計する必要があるリターン分布の表現に依存することである。
本稿では,制御に線形二次規制(LQR)を頼り,LQRに対する新たな分布的アプローチを提唱するDRL問題に対して,この課題を提起する。
具体的には、ランダムリターンの分布の閉形式表現を提供し、独立かつ同一に分布している限り、ダイナミクス上の全ての外因性障害に適用できる(即ち、d.)。
提案した厳密な回帰分布は無限に多くの確率変数から構成されるが、この分布は有限個の確率変数で近似でき、関連する近似誤差は軽度の仮定の下で解析的に有界であることを示す。
そこで本研究では,リスクの指標としてcvar(conditional value at risk)を用いたリスク回避lqrに対するゼロ次ポリシー勾配アルゴリズムを提案する。
理論的結果を説明するため, 数値実験を行った。
関連論文リスト
- EX-DRL: Hedging Against Heavy Losses with EXtreme Distributional Reinforcement Learning [16.972097006411147]
分散強化学習(DRL)における一般的なアプローチは、特定のレベルでの損失分布の量子化をQR(Quantile Regression)を用いて学習することである。
この方法は、直接量的リスク評価(VaR)や条件的リスク評価(CVaR)などのオプションヘッジにおいて特に有効である。
論文 参考訳(メタデータ) (2024-08-22T14:41:49Z) - Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence [15.720824593964027]
リスクに敏感な強化学習(RL)は、高い評価のアプリケーションにおいて信頼性の高い性能を維持するために不可欠である。
本稿では、一般的なコヒーレントリスク対策を用いたリスク感応型DRLのポリシー勾配法を提案する。
また、カテゴリー分布ポリシー評価と軌道勾配推定に基づくカテゴリー分布ポリシー勾配アルゴリズム(CDPG)を設計する。
論文 参考訳(メタデータ) (2024-05-23T16:16:58Z) - Discrete Probabilistic Inference as Control in Multi-path Environments [84.67055173040107]
本稿では,離散分布と構造化分布からサンプリングする問題を逐次決定問題として考察する。
我々は,GFlowNetが,フローの保存を強制することによって,報酬に比例してオブジェクトをサンプリングするポリシーを学習していることを示す。
また、GFlowNetの文献で見られるフローマッチングの目的が、精度の高いMaxEnt RLアルゴリズムと等価であることも証明した。
論文 参考訳(メタデータ) (2024-02-15T20:20:35Z) - More Benefits of Being Distributional: Second-Order Bounds for
Reinforcement Learning [58.626683114119906]
本研究では,分散強化学習(DistRL)がオンラインとオフラインのRLの2次境界を得ることができることを示す。
我々の結果は、低ランク MDP とオフライン RL に対する最初の2階境界である。
論文 参考訳(メタデータ) (2024-02-11T13:25:53Z) - Risk-Sensitive Policy with Distributional Reinforcement Learning [4.523089386111081]
本研究は、リスクに敏感なシーケンシャルな意思決定ポリシーを導出する、分布RLに基づく新しい手法を提案する。
リスクベースのユーティリティ関数$U$と名付けられ、任意の分布RLアルゴリズムによって自然に学習されたランダムリターン分布$Z$から抽出することができる。
これにより、リスク最小化と期待されるリターン最大化の間の完全な潜在的なトレードオフをまたがることができる。
論文 参考訳(メタデータ) (2022-12-30T14:37:28Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Conservative Offline Distributional Reinforcement Learning [34.95001490294207]
我々は,リスクニュートラルドメインとリスクアバースドメインの両方に対して,保守的オフライン配信アクタ批判(CODAC)を提案する。
CODAC は分布 RL をオフライン設定に適応させ、予測された分布の量子化をアウト・オブ・ディストリビューション・アクション(out-of-distribution action)として罰する。
実験では、CODACはリスク中立エージェントから純粋に収集されたオフラインデータを用いて、リスク回避ポリシーをうまく学習する。
論文 参考訳(メタデータ) (2021-07-12T15:38:06Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。