Fugu-MT 論文翻訳(概要): Enforcing Almost-Sure Reachability in POMDPs

論文の概要: Enforcing Almost-Sure Reachability in POMDPs

arxiv url: http://arxiv.org/abs/2007.00085v3
Date: Thu, 18 Mar 2021 23:07:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 06:14:43.770312
Title: Enforcing Almost-Sure Reachability in POMDPs
Title（参考訳）: POMDPの準安定化
Authors: Sebastian Junges, Nils Jansen, Sanjit A. Seshia
Abstract要約: 部分観測可能なマルコフ決定プロセス(POMDP)は、限られた情報の下での逐次決定のためのよく知られたモデルである。我々は、悪い状態にたどり着くことなく、ほぼ確実に目標状態に達するような、EXPTIMEの難題を考察する。 SATに基づく新しい反復手法と,決定図に基づく代替手法の2つのアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 10.883864654718103
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Partially-Observable Markov Decision Processes (POMDPs) are a well-known stochastic model for sequential decision making under limited information. We consider the EXPTIME-hard problem of synthesising policies that almost-surely reach some goal state without ever visiting a bad state. In particular, we are interested in computing the winning region, that is, the set of system configurations from which a policy exists that satisfies the reachability specification. A direct application of such a winning region is the safe exploration of POMDPs by, for instance, restricting the behavior of a reinforcement learning agent to the region. We present two algorithms: A novel SAT-based iterative approach and a decision-diagram based alternative. The empirical evaluation demonstrates the feasibility and efficacy of the approaches.
Abstract（参考訳）: 部分観測可能なマルコフ決定過程 (POMDP) は、限られた情報の下での逐次決定のための確率的モデルとしてよく知られている。我々は,まずい状態に足を踏み入れることなく目標状態にほぼ確実に到達する,合成ポリシの時間的困難問題を考える。特に、我々は、到達可能性仕様を満たすポリシーが存在するシステム構成の集合、すなわち勝利する領域の計算に興味があります。このような勝利領域の直接的な応用は、例えば、強化学習剤の領域への挙動を制限することによって、PMDPの安全な探索である。 SATに基づく新しい反復手法と,決定図に基づく代替手法の2つのアルゴリズムを提案する。実証的な評価は、アプローチの有効性と有効性を示している。

関連論文リスト

Sequential Monte Carlo for Policy Optimization in Continuous POMDPs [9.690099639375456]
連続的部分観測可能なマルコフ決定プロセス(POMDP)のための新しいポリシー最適化フレームワークを提案する。本手法は,非マルコフ的ファインマン-カックモデルにおいて,政策学習を確率論的推論とみなす。提案手法の有効性を,標準連続ポデムPベンチマークで実証する。
論文参考訳（メタデータ） (2025-05-22T14:45:46Z)
Flipping-based Policy for Chance-Constrained Markov Decision Processes [9.404184937255694]
本稿では,CCMDP(Chance-Constrained Markov Decision Processs)のためのテキストフリップに基づくポリシーを提案する。フリップベースのポリシーは、2つのアクション候補の間で潜在的に歪んだコインを投げて次のアクションを選択する。提案手法は,既存の安全RLアルゴリズムの性能を安全性の制約と同じ限度で向上させることを実証する。
論文参考訳（メタデータ） (2024-10-09T02:00:39Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Sound Heuristic Search Value Iteration for Undiscounted POMDPs with Reachability Objectives [16.101435842520473]
本稿では,POMDPにおける最大到達可能性確率問題(indefinite-horizon)と呼ばれる問題について検討する。割引問題に対するポイントベース手法の成功に触発され,MRPPへの拡張について検討した。本稿では,これらの手法の強みを有効活用し,信念空間を効率的に探索するアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T02:33:50Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文参考訳（メタデータ） (2023-10-03T10:52:21Z)
Online POMDP Planning with Anytime Deterministic Guarantees [11.157761902108692]
不確実性の下での計画は、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて数学的に定式化できる POMDPの最適計画を見つけるには計算コストがかかり、小さなタスクにのみ適用可能である。簡便な解と理論的に最適な解との決定論的関係を導出する。
論文参考訳（メタデータ） (2023-10-03T04:40:38Z)
Provably Efficient UCB-type Algorithms For Learning Predictive State Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。 PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文参考訳（メタデータ） (2023-07-01T18:35:21Z)
Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文参考訳（メタデータ） (2021-03-30T18:09:33Z)
Identification of Unexpected Decisions in Partially Observable Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文参考訳（メタデータ） (2020-12-23T15:09:28Z)
Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文参考訳（メタデータ） (2020-07-16T14:22:55Z)
SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文参考訳（メタデータ） (2020-06-25T13:06:59Z)
Point-Based Methods for Model Checking in Partially Observable Markov Decision Processes [36.07746952116073]
部分的に観測可能なマルコフ決定過程(POMDP)において線形時間論理式を満たすポリシーを合成する手法を提案する。本稿では,所望の論理式を満たす最大確率を効率的に近似するために,ポイントベースの値反復法を提案する。我々は,提案手法を大規模POMDPドメインに拡張し,その結果のポリシーの性能に強い拘束力を与えることを示した。
論文参考訳（メタデータ） (2020-01-11T23:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。