Fugu-MT 論文翻訳(概要): Entropic Risk Constrained Soft-Robust Policy Optimization

論文の概要: Entropic Risk Constrained Soft-Robust Policy Optimization

arxiv url: http://arxiv.org/abs/2006.11679v1
Date: Sat, 20 Jun 2020 23:48:28 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 22:38:22.005394
Title: Entropic Risk Constrained Soft-Robust Policy Optimization
Title（参考訳）: エントロピックリスク制約付きソフトロバスト政策最適化
Authors: Reazul Hasan Russel, Bahram Behzadian, Marek Petrik
Abstract要約: モデル不確実性によって引き起こされるリスクを定量化し、管理することは、高リスク領域において重要である。本稿では,モデルの不確実性に対するリスクに反する,エントロピー的リスク制約付きポリシー勾配とアクタ批判アルゴリズムを提案する。
参考スコア（独自算出の注目度）: 12.362670630646805
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Having a perfect model to compute the optimal policy is often infeasible in reinforcement learning. It is important in high-stakes domains to quantify and manage risk induced by model uncertainties. Entropic risk measure is an exponential utility-based convex risk measure that satisfies many reasonable properties. In this paper, we propose an entropic risk constrained policy gradient and actor-critic algorithms that are risk-averse to the model uncertainty. We demonstrate the usefulness of our algorithms on several problem domains.
Abstract（参考訳）: 最適方針を計算するための完璧なモデルを持つことは、強化学習においてしばしば実現不可能である。モデル不確実性によって引き起こされるリスクの定量化と管理は、ハイテイク領域において重要である。エントロピーリスク測度(Entropic risk measure)は、多くの合理的な性質を満たす指数的ユーティリティベースの凸リスク測度である。本稿では, モデルの不確実性に逆らう, エントロピー的リスク制約付き政策勾配とアクタ批判アルゴリズムを提案する。いくつかの問題領域におけるアルゴリズムの有用性を示す。

関連論文リスト

Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文参考訳（メタデータ） (2025-02-27T09:56:51Z)
Robust Reinforcement Learning with Dynamic Distortion Risk Measures [0.0]
我々は、堅牢なリスク対応強化学習問題を解決するための枠組みを考案した。我々は, 環境の不確実性とリスクを, 動的に頑健な歪みリスク対策のクラスで同時に考慮する。本研究では,リスクを意識したRL問題の解法としてアクター批判アルゴリズムを構築した。
論文参考訳（メタデータ） (2024-09-16T08:54:59Z)
Data-Adaptive Tradeoffs among Multiple Risks in Distribution-Free Prediction [55.77015419028725]
しきい値とトレードオフパラメータが適応的に選択された場合、リスクの有効な制御を可能にする手法を開発する。提案手法は単調なリスクとほぼ単調なリスクをサポートするが,それ以外は分布的な仮定はしない。
論文参考訳（メタデータ） (2024-03-28T17:28:06Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文参考訳（メタデータ） (2023-08-01T02:07:47Z)
Regret Bounds for Risk-sensitive Reinforcement Learning with Lipschitz Dynamic Risk Measures [23.46659319363579]
EmphLipschitz動的リスク尺度に適用した2つのモデルベースアルゴリズムを提案する。特に、私たちの上限は、アクションの数とエピソード数に最適な依存を示す。
論文参考訳（メタデータ） (2023-06-04T16:24:19Z)
Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文参考訳（メタデータ） (2022-05-10T19:40:52Z)
A policy gradient approach for optimization of smooth risk measures [8.087699764574788]
本稿では,マルコフ決定過程を考察し,累積割引報酬のスムーズなリスク対策の幅広いクラスを用いてリスクをモデル化する。本稿では,2つのテンプレート・ポリシー・グラデーション・アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-02-22T17:26:28Z)
Reinforcement Learning with Dynamic Convex Risk Measures [0.0]
モデルレス強化学習(RL)を用いた時間一貫性リスク感応的最適化問題の解法を開発する。我々は、時間一貫性のある動的プログラミング原則を用いて、特定のポリシーの価値を決定し、ポリシー勾配更新ルールを開発する。
論文参考訳（メタデータ） (2021-12-26T16:41:05Z)
Risk Conditioned Neural Motion Planning [14.018786843419862]
リスクバウンド・モーション・プランニングは、安全クリティカルなタスクにとって重要な問題であるが難しい問題である。本稿では,リスク評論家による計画の実行リスクを推定するために,ソフトアクター批評家モデルの拡張を提案する。計算時間と計画品質の両面で,我々のモデルの利点を示す。
論文参考訳（メタデータ） (2021-08-04T05:33:52Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。