論文の概要: Approximating Euclidean by Imprecise Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2006.14923v1
- Date: Fri, 26 Jun 2020 11:58:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 21:48:50.421238
- Title: Approximating Euclidean by Imprecise Markov Decision Processes
- Title(参考訳): マルコフ決定過程によるユークリッドの近似
- Authors: Manfred Jaeger, Giorgio Bacci, Giovanni Bacci, Kim Guldstrand Larsen,
and Peter Gj{\o}l Jensen
- Abstract要約: 我々は、ユークリッド過程が有限状態近似によって近似されるとき、どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数について、近似が任意に正確になることを示す。
- 参考スコア(独自算出の注目度): 3.0017241250121383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Euclidean Markov decision processes are a powerful tool for modeling control
problems under uncertainty over continuous domains. Finite state imprecise,
Markov decision processes can be used to approximate the behavior of these
infinite models. In this paper we address two questions: first, we investigate
what kind of approximation guarantees are obtained when the Euclidean process
is approximated by finite state approximations induced by increasingly fine
partitions of the continuous state space. We show that for cost functions over
finite time horizons the approximations become arbitrarily precise. Second, we
use imprecise Markov decision process approximations as a tool to analyse and
validate cost functions and strategies obtained by reinforcement learning. We
find that, on the one hand, our new theoretical results validate basic design
choices of a previously proposed reinforcement learning approach. On the other
hand, the imprecise Markov decision process approximations reveal some
inaccuracies in the learned cost functions.
- Abstract(参考訳): ユークリッドマルコフ決定プロセスは、連続領域上の不確実性の下で制御問題をモデル化する強力なツールである。
有限状態不正確性、マルコフ決定過程はこれらの無限モデルの挙動を近似するために用いられる。
本稿では,次の2つの問題に対処する: まず, 連続状態空間の微細な分割によって生じる有限状態近似によりユークリッド過程が近似されたときに, どのような近似保証が得られるかを検討する。
有限時間地平線上のコスト関数に対して近似は任意に正確になることを示す。
第2に,強化学習によって得られたコスト関数と戦略を分析し検証するためのツールとして,不正確なマルコフ決定過程近似を用いる。
一方,提案する強化学習手法の基本的な設計選択を検証した新しい理論結果が得られた。
一方、不正確なマルコフ決定過程近似は、学習コスト関数の不正確さを明らかにした。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。
割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。
本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T02:33:50Z) - Markov Decision Processes with Noisy State Observation [0.0]
本稿では,マルコフ決定過程(MDP)における特定のノイズ状態観測の課題について述べる。
我々は、真の状態を誤認する確率を捉える混乱行列を用いて、この不確実性をモデル化することに集中する。
そこで本研究では,本研究で提案する2つの提案手法について述べる。
論文 参考訳(メタデータ) (2023-12-13T21:50:38Z) - Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる
POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。
簡便な解と理論的に最適な解との決定論的関係を導出する。
論文 参考訳(メタデータ) (2023-10-03T04:40:38Z) - Robust $Q$-learning Algorithm for Markov Decision Processes under Wasserstein Uncertainty [5.639904484784127]
分布的ロバストなマルコフ決定問題を解くために,新しい$Q$-learningアルゴリズムを提案する。
提案アルゴリズムの収束性および最適制御問題の解法における分布ロバスト性の検討の利点を実証する。
論文 参考訳(メタデータ) (2022-09-30T10:01:04Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Markov Abstractions for PAC Reinforcement Learning in Non-Markov
Decision Processes [90.53326983143644]
マルコフの抽象概念は強化学習中に学習可能であることを示す。
提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証する。
論文 参考訳(メタデータ) (2022-04-29T16:53:00Z) - Counterfactual Explanations in Sequential Decision Making Under
Uncertainty [27.763369810430653]
本研究では, 逐次的意思決定プロセスにおいて, 対実的説明を求める手法を開発した。
我々の問題定式化において、反実的説明は、少なくとも k 個の作用において異なる作用の別の列を特定する。
提案アルゴリズムは,不確実性の下での意思決定の促進に有用な洞察を与えることができることを示す。
論文 参考訳(メタデータ) (2021-07-06T17:38:19Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Robust, Accurate Stochastic Optimization for Variational Inference [68.83746081733464]
また, 共通最適化手法は, 問題が適度に大きい場合, 変分近似の精度が低下することを示した。
これらの結果から,基礎となるアルゴリズムをマルコフ連鎖の生成とみなして,より堅牢で正確な最適化フレームワークを開発する。
論文 参考訳(メタデータ) (2020-09-01T19:12:11Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。