論文の概要: Online Risk-Averse Planning in POMDPs Using Iterated CVaR Value Function
- arxiv url: http://arxiv.org/abs/2601.20554v1
- Date: Wed, 28 Jan 2026 12:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.931472
- Title: Online Risk-Averse Planning in POMDPs Using Iterated CVaR Value Function
- Title(参考訳): 反復CVaR値関数を用いたPOMDPのオンラインリスク回避計画
- Authors: Yaacov Pariente, Vadim Indelman,
- Abstract要約: 動的リスク尺度(ICVaR)を用いた部分観測可能性下におけるリスク感受性計画に関する研究
ICVaRのポリシー評価アルゴリズムは,動作空間の濃度に依存しない有限時間性能保証を用いて開発されている。
ベンチマークPOMDP領域の実験では、提案したICVaRプランナは、リスクニュートラルなプランナに比べて、テールリスクが低いことが示されている。
- 参考スコア(独自算出の注目度): 9.269394037577177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study risk-sensitive planning under partial observability using the dynamic risk measure Iterated Conditional Value-at-Risk (ICVaR). A policy evaluation algorithm for ICVaR is developed with finite-time performance guarantees that do not depend on the cardinality of the action space. Building on this foundation, three widely used online planning algorithms--Sparse Sampling, Particle Filter Trees with Double Progressive Widening (PFT-DPW), and Partially Observable Monte Carlo Planning with Observation Widening (POMCPOW)--are extended to optimize the ICVaR value function rather than the expectation of the return. Our formulations introduce a risk parameter $α$, where $α= 1$ recovers standard expectation-based planning and $α< 1$ induces increasing risk aversion. For ICVaR Sparse Sampling, we establish finite-time performance guarantees under the risk-sensitive objective, which further enable a novel exploration strategy tailored to ICVaR. Experiments on benchmark POMDP domains demonstrate that the proposed ICVaR planners achieve lower tail risk compared to their risk-neutral counterparts.
- Abstract(参考訳): 本研究では, 動的リスク尺度(ICVaR)を用いて, 部分観測可能性下でのリスク感受性計画について検討した。
ICVaRのポリシー評価アルゴリズムは,動作空間の濃度に依存しない有限時間性能保証を用いて開発されている。
この基盤の上に構築された3つのオンラインプランニングアルゴリズム-スパースサンプリング、ダブルプログレッシブワイドニング(PFT-DPW)によるパーティクルフィルタツリー(Particle Filter Trees with Double Progressive Widening)、および部分観測可能なモンテカルロ計画(Partially Observable Monte Carlo Planning with Observation Widening(POMCPOW)-は、リターンの期待よりもICVaR値関数を最適化するために拡張されている。
我々の定式化はリスクパラメータ$α$を導入し、$α=1$は標準予測ベースの計画を回復し、$α<1$はリスク回避を誘導する。
ICVaRスパースサンプリングでは、リスク感応的な目的のもと、有限時間の性能保証を確立し、ICVaRに合わせた新しい探索戦略を可能にする。
ベンチマークPOMDP領域の実験では、提案したICVaRプランナは、リスクニュートラルなプランナに比べて、テールリスクが低いことが示されている。
関連論文リスト
- Efficient Risk-sensitive Planning via Entropic Risk Measures [51.42922439693624]
動的プログラミングにより,エントロピーリスク対策(EntRM)のみを効率的に最適化できることを示す。
エントロピーリスクの新たな構造解析と滑らかさ特性により, この最適性を効果的に計算できることを実証する。
論文 参考訳(メタデータ) (2025-02-27T09:56:51Z) - Risk-averse Learning with Non-Stationary Distributions [18.15046585146849]
本稿では,ランダムなコスト分布が時間とともに変化するリスク-逆オンライン最適化について検討する。
リスクの条件値(CVaR)をリスク尺度として用いたリスク逆目的関数を最小化する。
設計した学習アルゴリズムは,凸関数と凸関数の両方に対して高い確率で線形動的後悔を実現する。
論文 参考訳(メタデータ) (2024-04-03T18:16:47Z) - Provably Efficient CVaR RL in Low-rank MDPs [58.58570425202862]
リスクに敏感な強化学習(RL)について検討する。
本稿では, CVaR RLにおける探索, 搾取, 表現学習の相互作用のバランスをとるための, 新たなアッパー信頼境界(UCB)ボーナス駆動アルゴリズムを提案する。
提案アルゴリズムは,各エピソードの長さが$H$,アクション空間が$A$,表現の次元が$d$であるような,エプシロン$最適CVaRのサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2023-11-20T17:44:40Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk [28.811725782388688]
本研究では,有限水平および割引無限水平MDPにおける不確実性に関連するリスクを共同でモデル化する新しい枠組みを提案し,分析する。
リスク回避をEVaRかエントロピーリスクのいずれかを用いて定義すると、RASRの最適ポリシーは時間依存型リスクレベルを持つ新しい動的プログラム定式化を用いて効率的に計算できることを示す。
論文 参考訳(メタデータ) (2022-09-09T00:34:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Lexicographic Optimisation of Conditional Value at Risk and Expected
Value for Risk-Averse Planning in MDPs [4.87191262649216]
マルコフ決定プロセス(MDP)の計画は通常、期待されるコストを最適化する。
もう1つのアプローチは、リスクの条件値(CVaR)のようなリスク-逆の目的を最適化するポリシーを見つけることである。
我々は,総コストのCVaRが最適であるという制約の下で,期待されるコストを最小限に抑えるための語彙最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-10-25T09:16:50Z) - Risk-Averse Stochastic Shortest Path Planning [25.987787625028204]
最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。
ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
論文 参考訳(メタデータ) (2021-03-26T20:49:14Z) - Risk-Constrained Thompson Sampling for CVaR Bandits [82.47796318548306]
CVaR(Conditional Value at Risk)として知られる量的ファイナンスにおける一般的なリスク尺度について考察する。
本稿では,トンプソンサンプリングに基づくCVaR-TSアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-11-16T15:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。