論文の概要: Risk-sensitive control as inference with Rényi divergence
- arxiv url: http://arxiv.org/abs/2411.01827v1
- Date: Mon, 04 Nov 2024 05:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:48:54.696671
- Title: Risk-sensitive control as inference with Rényi divergence
- Title(参考訳): Rényi divergenceによるリスク感受性制御
- Authors: Kaito Ito, Kenji Kashima,
- Abstract要約: 本稿では,CaIを延ばすリスク感受性制御を推論(RCaI)として導入する。
RCaIは、ログ確率正規化リスク感受性制御と等価であることが示されている。
我々は,ソフトベルマン方程式を解くことで,リスクに敏感な最適政策が得られることを証明した。
- 参考スコア(独自算出の注目度): 0.07366405857677226
- License:
- Abstract: This paper introduces the risk-sensitive control as inference (RCaI) that extends CaI by using R\'{e}nyi divergence variational inference. RCaI is shown to be equivalent to log-probability regularized risk-sensitive control, which is an extension of the maximum entropy (MaxEnt) control. We also prove that the risk-sensitive optimal policy can be obtained by solving a soft Bellman equation, which reveals several equivalences between RCaI, MaxEnt control, the optimal posterior for CaI, and linearly-solvable control. Moreover, based on RCaI, we derive the risk-sensitive reinforcement learning (RL) methods: the policy gradient and the soft actor-critic. As the risk-sensitivity parameter vanishes, we recover the risk-neutral CaI and RL, which means that RCaI is a unifying framework. Furthermore, we give another risk-sensitive generalization of the MaxEnt control using R\'{e}nyi entropy regularization. We show that in both of our extensions, the optimal policies have the same structure even though the derivations are very different.
- Abstract(参考訳): 本稿では, R\'{e}nyi divergence variational inference を用いて, CaI を拡張したリスク感受性制御法 (RCaI) を提案する。
RCaIは最大エントロピー(MaxEnt)制御の拡張であるログ確率正規化リスク感受性制御と等価であることが示されている。
また, RCaI と MaxEnt 制御, CaI の最適後部, 線形可解制御の相同性を明らかにするソフトベルマン方程式を解くことにより, リスクに敏感な最適政策が得られることを示す。
さらに, RCaIに基づくリスク感応性強化学習(RL)法, 政策勾配とソフトアクター批判を導出する。
リスク感受性パラメータがなくなると、リスクニュートラル CaI と RL が回復する。
さらに、R\'{e}nyi entropy regularization を用いて、リスクに敏感な MaxEnt 制御の別の一般化を与える。
どちらの拡張も、導出が非常に異なるにもかかわらず、最適ポリシーが同じ構造を持つことが示される。
関連論文リスト
- Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。
我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。
本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文 参考訳(メタデータ) (2024-09-16T08:54:59Z) - Robust Risk-Sensitive Reinforcement Learning with Conditional Value-at-Risk [23.63388546004777]
我々はロバスト・マルコフ決定過程の下でCVaRに基づくリスク感受性RLのロバスト性を分析する。
実世界の問題における意思決定依存の不確実性の存在を動機として、状態行動依存曖昧性集合による問題を研究する。
論文 参考訳(メタデータ) (2024-05-02T20:28:49Z) - Risk-Sensitive RL with Optimized Certainty Equivalents via Reduction to
Standard RL [48.1726560631463]
我々は,OCE(Optimized Certainty Equivalent)リスクを用いたリスク感性強化学習について検討した。
標準RLへの還元による2つの一般的なメタアルゴリズムを提案する。
我々は,事前アルゴリズムが確実に失敗する間に,最適リスク感応ポリシーを学習することを示す。
論文 参考訳(メタデータ) (2024-03-10T21:45:12Z) - Provable Risk-Sensitive Distributional Reinforcement Learning with
General Function Approximation [54.61816424792866]
本稿では,リスク感性分布強化学習(RS-DisRL)と静的リプシッツリスク対策(LRM),一般関数近似について紹介する。
モデルに基づく関数近似のためのモデルベース戦略であるtextttRS-DisRL-M と、一般値関数近似のためのモデルフリーアプローチである textttRS-DisRL-V の2つの革新的なメタアルゴリズムを設計する。
論文 参考訳(メタデータ) (2024-02-28T08:43:18Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR
and Worst Path [40.4378338001229]
本稿では,各段階における報酬対ゴーのテールを最大化することを目的とした,反復型CVaR RL(Iterated CVaR RL)という,新たなエピソード型リスク感応型強化学習(RL)問題について検討する。
この定式化は、意思決定プロセスを通して強いリスク回避を要求する現実世界のタスクに適用できる。
論文 参考訳(メタデータ) (2022-06-06T15:24:06Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。