論文の概要: Risk-Sensitive Reinforcement Learning with Exponential Criteria
- arxiv url: http://arxiv.org/abs/2212.09010v2
- Date: Tue, 21 Mar 2023 04:48:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:59:42.970618
- Title: Risk-Sensitive Reinforcement Learning with Exponential Criteria
- Title(参考訳): 指数的基準を用いたリスク感応強化学習
- Authors: Erfaun Noorani, Christos Mavridis, John Baras
- Abstract要約: 本研究では,指数的基準が強化学習エージェントの政策のリスク感受性に及ぼす影響について検討した。
我々はモンテカルロポリシーグラディエントアルゴリズムとオンライン(時間差)アクター・クリティカルアルゴリズムの変種を開発する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While risk-neutral reinforcement learning has shown experimental success in a
number of applications, it is well-known to be non-robust with respect to noise
and perturbations in the parameters of the system. For this reason,
risk-sensitive reinforcement learning algorithms have been studied to introduce
robustness and sample efficiency, and lead to better real-life performance. In
this work, we introduce new model-free risk-sensitive reinforcement learning
algorithms as variations of widely-used Policy Gradient algorithms with similar
implementation properties. In particular, we study the effect of exponential
criteria on the risk-sensitivity of the policy of a reinforcement learning
agent, and develop variants of the Monte Carlo Policy Gradient algorithm and
the online (temporal-difference) Actor-Critic algorithm. Analytical results
showcase that the use of exponential criteria generalize commonly used ad-hoc
regularization approaches. The implementation, performance, and robustness
properties of the proposed methods are evaluated in simulated experiments.
- Abstract(参考訳): リスクニュートラルな強化学習は多くの応用で実験的に成功したが、システムのパラメータのノイズや摂動に関して非破壊的であることはよく知られている。
このため, リスクに敏感な強化学習アルゴリズムが研究され, 堅牢性とサンプル効率が向上し, 実生活性能が向上した。
そこで本研究では,類似の実装特性を持つ広く用いられているポリシ勾配アルゴリズムのバリエーションとして,モデルフリーなリスク感応強化学習アルゴリズムを導入する。
特に,強化学習エージェントの方針のリスク感受性に及ぼす指数的基準の影響について検討し,モンテカルロ政策勾配アルゴリズムとオンライン・アクタ-クリティックアルゴリズムの変種を開発した。
分析結果は、指数基準の使用が一般的に使用されるアドホック正則化アプローチを一般化することを示している。
提案手法の実装,性能,ロバスト性についてシミュレーション実験により評価した。
関連論文リスト
- Regularization for Adversarial Robust Learning [18.46110328123008]
我々は,$phi$-divergence正規化を分散ロバストなリスク関数に組み込む,対角訓練のための新しい手法を開発した。
この正規化は、元の定式化と比較して計算の顕著な改善をもたらす。
本研究では,教師付き学習,強化学習,文脈学習において提案手法の有効性を検証し,様々な攻撃に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2024-08-19T03:15:41Z) - Risk-Sensitive Soft Actor-Critic for Robust Deep Reinforcement Learning
under Distribution Shifts [11.765000124617186]
本研究では、文脈多段階最適化問題における分散シフトに対する深層強化学習アルゴリズムの堅牢性について検討する。
提案アルゴリズムは,リスクニュートラルなソフトアクター・クライブや,頑健な深層強化学習のための2つのベンチマーク手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-15T14:55:38Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Risk-Sensitive Stochastic Optimal Control as Rao-Blackwellized Markovian
Score Climbing [3.9410617513331863]
動的システムの最適制御は、シーケンシャルな意思決定において重要な課題である。
コントロール・アズ・推論のアプローチは大きな成功をおさめ、探索・探索ジレンマに対処するためのリスクに敏感なフレームワークを提供する。
本稿では, 条件付き粒子フィルタから抽出した試料下でのマルコフ強化スコアクライミングとして, リスク感応性制御のフレーミングによる新しい視点を提案する。
論文 参考訳(メタデータ) (2023-12-21T16:34:03Z) - Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。
本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文 参考訳(メタデータ) (2023-12-07T15:55:58Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Conditionally Elicitable Dynamic Risk Measures for Deep Reinforcement
Learning [0.0]
我々は,ディープニューラルネットワークを用いた動的スペクトルリスク尺度のクラスを推定する効率的な手法を開発した。
また,リスクに敏感なアクター・クリティック・アルゴリズムも開発しており,追加のネスト・トランジションを必要としない。
論文 参考訳(メタデータ) (2022-06-29T14:11:15Z) - Robust Reinforcement Learning with Distributional Risk-averse
formulation [1.2891210250935146]
リスク・アバースの近似式を用いて,ロバスト強化学習を$Phi$-divergenceで制約する。
古典的強化学習の定式化は、目的の標準偏差ペナル化を用いて堅牢化できることを示す。
論文 参考訳(メタデータ) (2022-06-14T13:33:58Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - SAMBA: Safe Model-Based & Active Reinforcement Learning [59.01424351231993]
SAMBAは、確率論的モデリング、情報理論、統計学といった側面を組み合わせた安全な強化学習のためのフレームワークである。
我々は,低次元および高次元の状態表現を含む安全な力学系ベンチマークを用いて,アルゴリズムの評価を行った。
アクティブなメトリクスと安全性の制約を詳細に分析することで,フレームワークの有効性を直感的に評価する。
論文 参考訳(メタデータ) (2020-06-12T10:40:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。