論文の概要: Risk Aware Belief-dependent Constrained POMDP Planning
- arxiv url: http://arxiv.org/abs/2209.02679v1
- Date: Tue, 6 Sep 2022 17:48:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:49:34.378672
- Title: Risk Aware Belief-dependent Constrained POMDP Planning
- Title(参考訳): 信頼に依存した制約付きPMDP計画
- Authors: Andrey Zhitnikov, Vadim Indelman
- Abstract要約: リスク認識は、オンライン操作エージェントの基本である。
既存の制約付きPOMDPアルゴリズムは一般に離散状態と観測空間のために設計されている。
本稿では,リスク・逆信念に依存した制約付きPMDPの新たな定式化について述べる。
- 参考スコア(独自算出の注目度): 9.061408029414453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Risk awareness is fundamental to an online operating agent. However, it
received less attention in the challenging continuous domain under partial
observability. Existing constrained POMDP algorithms are typically designed for
discrete state and observation spaces. In addition, current solvers for
constrained formulations do not support general belief-dependent constraints.
Crucially, in the POMDP setting, risk awareness in the context of a constraint
was addressed in a limited way. This paper presents a novel formulation for
risk-averse belief-dependent constrained POMDP. Our probabilistic constraint is
general and belief-dependent, as is the reward function. The proposed universal
framework applies to a continuous domain with nonparametric beliefs represented
by particles or parametric beliefs. We show that our formulation better
accounts for the risk than previous approaches.
- Abstract(参考訳): リスク認識は、オンライン操作エージェントの基本である。
しかし、部分的可観測性の下での挑戦的な連続領域では、あまり注目されなかった。
既存の制約付きPOMDPアルゴリズムは一般に離散状態と観測空間のために設計されている。
さらに、制約付き定式化の現在の解法は一般的な信念に依存した制約をサポートしない。
POMDP設定において、制約の文脈におけるリスク認識は限定的な方法で対処された。
本稿では,リスク回避信念依存制約型pomdpの新しい定式化法を提案する。
我々の確率的制約は、報酬関数と同様に一般かつ信念に依存している。
提案された普遍的枠組みは、粒子またはパラメトリック信念によって表される非パラメトリック信念を持つ連続領域に適用される。
我々の定式化は,従来の手法よりもリスクをよく説明できることを示す。
関連論文リスト
- Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Capsa: A Unified Framework for Quantifying Risk in Deep Neural Networks [142.67349734180445]
ディープニューラルネットワークにリスク認識を提供する既存のアルゴリズムは複雑でアドホックである。
ここでは、リスク認識でモデルを拡張するためのフレームワークであるcapsaを紹介します。
論文 参考訳(メタデータ) (2023-08-01T02:07:47Z) - Simplified Continuous High Dimensional Belief Space Planning with
Adaptive Probabilistic Belief-dependent Constraints [9.061408029414453]
部分的に観測可能な領域における不確実性、あるいはBelief Space Planningとしても知られる場合、オンライン意思決定は根本的な問題である。
本稿では,確率論的信念に依存した制約に対して,適応的に行動列を受理あるいは破棄する手法を提案する。
本手法を高次元空間計画の課題であるアクティブSLAMに適用する。
論文 参考訳(メタデータ) (2023-02-13T21:22:47Z) - Information-Theoretic Safe Exploration with Gaussian Processes [89.31922008981735]
未知の(安全でない)制約に反するパラメータを評価できないような、逐次的な意思決定タスクについて検討する。
現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。
本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。
論文 参考訳(メタデータ) (2022-12-09T15:23:58Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z) - Non-Linear Spectral Dimensionality Reduction Under Uncertainty [107.01839211235583]
我々は、不確実性情報を活用し、いくつかの従来のアプローチを直接拡張する、NGEUと呼ばれる新しい次元削減フレームワークを提案する。
提案したNGEUの定式化は,大域的な閉形式解を示し,Radecherの複雑性に基づいて,基礎となる不確実性がフレームワークの一般化能力に理論的にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2022-02-09T19:01:33Z) - Risk-Averse Stochastic Shortest Path Planning [25.987787625028204]
最適、定常、マルコフの方針が存在することを示し、特別なベルマン方程式を用いて見出すことができる。
ローバーナビゲーションMDPを用いて,条件値値リスク(CVaR)とエントロピー値値リスク(EVaR)のコヒーレントリスク尺度を用いて提案手法を説明する。
論文 参考訳(メタデータ) (2021-03-26T20:49:14Z) - Worst-Case Risk Quantification under Distributional Ambiguity using
Kernel Mean Embedding in Moment Problem [17.909696462645023]
カーネルの平均埋め込みを用いた分布あいまいさ下での最悪のケースリスクの定量化を提案する。
制約制御システムのコンテキストにおける最悪の制約違反確率を特徴付ける上で,提案手法を数値的に検証する。
論文 参考訳(メタデータ) (2020-03-31T23:51:27Z) - Cautious Reinforcement Learning via Distributional Risk in the Dual
Domain [45.17200683056563]
マルコフ決定過程(MDP)によって定義される強化学習問題において,状態と行動空間が可算有限である場合のリスク感受性ポリシーの推定について検討する。
本稿では,強化学習の線形プログラミング(LP)の2つの目的に付加されるペナルティ関数として,新たなリスク定義を提案する。
論文 参考訳(メタデータ) (2020-02-27T23:18:04Z) - Reinforcement Learning of Risk-Constrained Policies in Markov Decision
Processes [5.081241420920605]
マルコフ決定プロセス(MDPs)は、確率的不確実性の存在下でのシーケンシャルな意思決定のためのデファクト・フレームワークである。
破滅的な結果が再帰する障害状態と相まって, 対価を割引したMDPについて検討する。
我々の主な貢献は、UDTのような探索とMDPとの学習的相互作用を組み合わせた効率的なリスク制約型プランニングアルゴリズムである。
論文 参考訳(メタデータ) (2020-02-27T13:36:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。