論文の概要: Risk-Averse Decision Making Under Uncertainty
- arxiv url: http://arxiv.org/abs/2109.04082v1
- Date: Thu, 9 Sep 2021 07:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 14:03:45.842126
- Title: Risk-Averse Decision Making Under Uncertainty
- Title(参考訳): 不確実性下におけるリスク逆決定
- Authors: Mohamadreza Ahmadi, Ugo Rosolia, Michel D. Ingham, Richard M. Murray,
and Aaron D. Ames
- Abstract要約: 不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
- 参考スコア(独自算出の注目度): 18.467950783426947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large class of decision making under uncertainty problems can be described
via Markov decision processes (MDPs) or partially observable MDPs (POMDPs),
with application to artificial intelligence and operations research, among
others. Traditionally, policy synthesis techniques are proposed such that a
total expected cost or reward is minimized or maximized. However, optimality in
the total expected cost sense is only reasonable if system behavior in the
large number of runs is of interest, which has limited the use of such policies
in practical mission-critical scenarios, wherein large deviations from the
expected behavior may lead to mission failure. In this paper, we consider the
problem of designing policies for MDPs and POMDPs with objectives and
constraints in terms of dynamic coherent risk measures, which we refer to as
the constrained risk-averse problem. For MDPs, we reformulate the problem into
a infsup problem via the Lagrangian framework and propose an optimization-based
method to synthesize Markovian policies. For MDPs, we demonstrate that the
formulated optimization problems are in the form of difference convex programs
(DCPs) and can be solved by the disciplined convex-concave programming (DCCP)
framework. We show that these results generalize linear programs for
constrained MDPs with total discounted expected costs and constraints. For
POMDPs, we show that, if the coherent risk measures can be defined as a Markov
risk transition mapping, an infinite-dimensional optimization can be used to
design Markovian belief-based policies. For stochastic finite-state controllers
(FSCs), we show that the latter optimization simplifies to a
(finite-dimensional) DCP and can be solved by the DCCP framework. We
incorporate these DCPs in a policy iteration algorithm to design risk-averse
FSCs for POMDPs.
- Abstract(参考訳): 不確実性問題に対する大規模な意思決定は、マルコフ決定プロセス(mdps)または部分的に観測可能なmdps(pomdps)を通じて記述することができ、人工知能や運用研究などに応用できる。
従来の政策合成技術では、総費用や報酬の最小化や最大化を図っている。
しかし, 総コスト感覚の最適性は, 多数のランニングにおけるシステム行動が関心を持つ場合にのみ妥当であり, 実際のミッションクリティカルなシナリオではそのようなポリシーの使用が制限され, 期待される行動からの大きな逸脱がミッション失敗につながる可能性がある。
本稿では,mdp と pomdp のポリシー設計の問題点を,動的コヒーレント・リスク対策の観点から,目的と制約を考慮し,制約付きリスク回避問題として考察する。
MDPでは,この問題をラグランジアンフレームワークを介して不完全な問題に再構成し,マルコフポリシーを最適化する手法を提案する。
MDPに対して、定式化された最適化問題は差分凸プログラム(DCP)の形式であり、規律付き凸凸プログラミング(DCCP)フレームワークで解決可能であることを実証する。
これらの結果は,制約付きmdpの線形プログラムを,期待コストと制約の合計値で一般化することを示す。
POMDPに対して、コヒーレントリスク尺度をマルコフリスク遷移写像として定義できるならば、マルコフの信念に基づくポリシーの設計に無限次元の最適化を用いることができることを示す。
確率有限状態コントローラ (FSC) に対して、後者の最適化は(有限次元) DCP に単純化され、DCCP フレームワークで解けることを示す。
我々はこれらのDCPをポリシー反復アルゴリズムに組み込んで、PMDPのリスク逆FSCを設計する。
関連論文リスト
- Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form [26.01796404477275]
本稿では,頑健な制約付きMDP(RCMDP)における準最適ポリシーを同定できる最初のアルゴリズムを提案する。
最適ポリシーは、一連の環境における最悪のシナリオにおける制約を満たしながら累積コストを最小化する。
論文 参考訳(メタデータ) (2024-08-29T06:37:16Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - A safe exploration approach to constrained Markov decision processes [7.036452261968767]
無限水平制限マルコフ決定過程(CMDP)について考察する。
目標は、期待される累積的制約の対象となる累積的報酬を最大化する最適なポリシーを見つけることである。
安全クリティカルなシステムのオンライン学習におけるCMDPの適用により、モデルフリーでシミュレータフリーなアルゴリズムの開発に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-01T13:16:39Z) - Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Constrained Risk-Averse Markov Decision Processes [18.467950783426947]
リスク目標と制約を動的に整合させたマルコフ決定プロセスのポリシー設計の問題点を考察する。
制約付きリスク-逆問題より低いバウンドのマルコフポリシーを最適化した手法を提案する。
これらの結果から, 制約付きMDPの線形プログラムを, 総割引コストと制約付きで一般化できることが示唆された。
論文 参考訳(メタデータ) (2020-12-04T06:12:11Z) - Robust Constrained-MDPs: Soft-Constrained Robust Policy Optimization
under Model Uncertainty [9.246374019271935]
我々は、制約マルコフ決定過程(CMDP)の理論とロバストマルコフ決定過程(RMDP)理論を融合することを提案する。
この定式化により、性能が堅牢なRLアルゴリズムを設計でき、制約満足度を保証することができる。
まず、RCMDPの概念に基づく一般問題定式化を提案し、次に最適問題のラグランジアン定式化を提案し、ロバスト制約付きポリシー勾配RLアルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-10-10T01:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。