Fugu-MT 論文翻訳(概要): Simplification of Risk Averse POMDPs with Performance Guarantees

論文の概要: Simplification of Risk Averse POMDPs with Performance Guarantees

arxiv url: http://arxiv.org/abs/2406.03000v1
Date: Wed, 5 Jun 2024 07:05:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 19:39:21.344944
Title: Simplification of Risk Averse POMDPs with Performance Guarantees
Title（参考訳）: 性能保証を用いたリスク回避型PMDPの簡易化
Authors: Yaacov Pariente, Vadim Indelman,
Abstract要約: 部分的に観測可能な領域における不確実性の下でのリスク回避意思決定は、AIの基本的問題であり、信頼性の高い自律エージェントにとって不可欠である。この場合、値関数がリターンの条件値(CVaR)である場合、問題は部分的に観測可能なマルコフ決定プロセス(POMDP)を用いてモデル化される。 POMDPの最適解を計算することは、一般に計算的に計算可能である。我々は,性能保証を提供しながら,値関数の評価を高速化する簡易化フレームワークを開発した。
参考スコア（独自算出の注目度）: 6.129902017281406
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Risk averse decision making under uncertainty in partially observable domains is a fundamental problem in AI and essential for reliable autonomous agents. In our case, the problem is modeled using partially observable Markov decision processes (POMDPs), when the value function is the conditional value at risk (CVaR) of the return. Calculating an optimal solution for POMDPs is computationally intractable in general. In this work we develop a simplification framework to speedup the evaluation of the value function, while providing performance guarantees. We consider as simplification a computationally cheaper belief-MDP transition model, that can correspond, e.g., to cheaper observation or transition models. Our contributions include general bounds for CVaR that allow bounding the CVaR of a random variable X, using a random variable Y, by assuming bounds between their cumulative distributions. We then derive bounds for the CVaR value function in a POMDP setting, and show how to bound the value function using the computationally cheaper belief-MDP transition model and without accessing the computationally expensive model in real-time. Then, we provide theoretical performance guarantees for the estimated bounds. Our results apply for a general simplification of a belief-MDP transition model and support simplification of both the observation and state transition models simultaneously.
Abstract（参考訳）: 部分的に観測可能な領域における不確実性の下でのリスク回避意思決定は、AIの基本的問題であり、信頼性の高い自律エージェントにとって不可欠である。この場合、値関数がリターンの条件値(CVaR)である場合、問題は部分的に観測可能なマルコフ決定プロセス(POMDP)を用いてモデル化される。 POMDPの最適解を計算することは、一般に計算的に計算可能である。本研究では,性能保証を提供しながら,値関数の評価を高速化する簡易化フレームワークを開発する。計算的に安価な信念-MDP遷移モデルを単純化し、例えば、より安価な観測モデルや遷移モデルに対応できると考えている。我々の貢献は、確率変数 Y を用いて確率変数 X の CVaR の有界化を可能にする CVaR の一般境界を含む。次に,POMDP設定におけるCVaR値関数のバウンダリを導出し,計算コストの低いMDP遷移モデルを用いて,計算コストのかかるモデルにリアルタイムでアクセスすることなく,値関数をバウンダリする方法を示す。次に,推定値に対する理論的性能保証を行う。本研究は,信念-MDP遷移モデルの一般化と,観測モデルと状態遷移モデルの両方を同時に簡易化するためのものである。

関連論文リスト

Robust Counterfactual Inference in Markov Decision Processes [1.5197843979051473]
現在のアプローチでは、カウンターファクトを識別するために特定の因果モデルを想定している。反実遷移確率の厳密な境界を計算できる新しい非パラメトリック手法を提案する。
論文参考訳（メタデータ） (2025-02-19T13:56:20Z)
Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文参考訳（メタデータ） (2024-03-29T18:11:49Z)
Simplifying Complex Observation Models in Continuous POMDP Planning with Probabilistic Guarantees and Practice [9.444784653236157]
我々は,簡易観測モデルを計画に用いた場合,どのような意味があるのかという問題に対処する。我々の主な貢献は、単純化されたモデルの統計的全変動距離に基づく新しい確率的境界である。計算はオフラインとオンラインに分かれることが可能で、計画中にコストのかかるモデルにアクセスすることなく、正式な保証に到達します。
論文参考訳（メタデータ） (2023-11-13T20:55:02Z)
Non-stationary Reinforcement Learning under General Function Approximation [60.430936031067006]
まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。 SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
論文参考訳（メタデータ） (2023-06-01T16:19:37Z)
An Adaptive State Aggregation Algorithm for Markov Decision Processes [10.494611365482028]
同様のコスト・ツー・ゴー値の状態を動的にグループ化することで、価値反復更新のコストを削減できるMDPを解くための直感的なアルゴリズムを提案する。我々のアルゴリズムはほぼ確実に(2varepsilon / (1 - gamma) に収束し、(γ) は割引係数であり、集約された状態は最大で (varepsilon) 異なる。
論文参考訳（メタデータ） (2021-07-23T07:19:43Z)
Collaborative Nonstationary Multivariate Gaussian Process Model [2.362467745272567]
我々は、協調非定常ガウス過程モデル(CNMGP)と呼ばれる新しいモデルを提案する。 CNMGPは、出力が共通の入力セットを共有していないデータを、入力と出力のサイズに依存しない計算複雑性でモデル化することができる。また,本モデルでは,出力毎に異なる時間変化相関を推定し,予測性能の向上を図っている。
論文参考訳（メタデータ） (2021-06-01T18:25:22Z)
Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文参考訳（メタデータ） (2021-02-27T19:28:39Z)
Efficient semidefinite-programming-based inference for binary and multi-class MRFs [83.09715052229782]
分割関数やMAP推定をペアワイズMRFで効率的に計算する手法を提案する。一般のバイナリMRFから完全多クラス設定への半定緩和を拡張し、解法を用いて再び効率的に解けるようなコンパクトな半定緩和を開発する。
論文参考訳（メタデータ） (2020-12-04T15:36:29Z)
Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文参考訳（メタデータ） (2020-09-21T09:11:36Z)
A conditional one-output likelihood formulation for multitask Gaussian processes [0.0]
マルチタスクガウス過程(MTGP)は多出力回帰問題に対するガウスプロセスフレームワークの解である。本稿では,マルチタスク学習を簡略化する新しい手法を提案する。現状の美術品と計算的に競合していることが示される。
論文参考訳（メタデータ） (2020-06-05T14:59:06Z)
Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文参考訳（メタデータ） (2020-03-05T19:56:23Z)
Plannable Approximations to MDP Homomorphisms: Equivariance under Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文参考訳（メタデータ） (2020-02-27T08:29:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。