論文の概要: Verifiable Planning in Expected Reward Multichain MDPs
- arxiv url: http://arxiv.org/abs/2012.02178v1
- Date: Thu, 3 Dec 2020 18:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 15:16:28.086936
- Title: Verifiable Planning in Expected Reward Multichain MDPs
- Title(参考訳): 再帰型マルチチェーンMDPの検証計画
- Authors: George K. Atia, Andre Beckus, Ismail Alkhouri, Alvaro Velasquez
- Abstract要約: エージェントの意思決定方針を導出する定常計画問題について検討する。
提案プログラムに対する最適解が、厳密な行動保証を伴う定常的な政策をもたらすことを証明した。
- 参考スコア(独自算出の注目度): 20.456052208569115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The planning domain has experienced increased interest in the formal
synthesis of decision-making policies. This formal synthesis typically entails
finding a policy which satisfies formal specifications in the form of some
well-defined logic, such as Linear Temporal Logic (LTL) or Computation Tree
Logic (CTL), among others. While such logics are very powerful and expressive
in their capacity to capture desirable agent behavior, their value is limited
when deriving decision-making policies which satisfy certain types of
asymptotic behavior. In particular, we are interested in specifying constraints
on the steady-state behavior of an agent, which captures the proportion of time
an agent spends in each state as it interacts for an indefinite period of time
with its environment. This is sometimes called the average or expected behavior
of the agent. In this paper, we explore the steady-state planning problem of
deriving a decision-making policy for an agent such that constraints on its
steady-state behavior are satisfied. A linear programming solution for the
general case of multichain Markov Decision Processes (MDPs) is proposed and we
prove that optimal solutions to the proposed programs yield stationary policies
with rigorous guarantees of behavior.
- Abstract(参考訳): 計画領域は意思決定政策の形式的な合成への関心が高まっている。
この形式合成は典型的には、線形時間論理(LTL)や計算木論理(CTL)など、明確に定義された論理の形で形式仕様を満たすポリシーを見つけることを必要とする。
このような論理は望ましいエージェントの振る舞いを捉える能力において非常に強力で表現力があるが、その価値は特定の種類の漸近的行動を満たす意思決定ポリシーを導出する場合に限られる。
特に,エージェントの定常的な動作に関する制約を特定することに関心を持ち,エージェントが環境と無期限に相互作用する際に各状態において費やす時間の割合をキャプチャする。
これはエージェントの平均行動や期待行動と呼ばれることもある。
本稿では,エージェントに対する意思決定方針を導出する定常的計画問題について考察し,その定常的行動に対する制約が満たされることを示す。
マルチチェーンマルコフ決定過程(MDPs)の一般事例に対する線形プログラミング解を提案し,提案プログラムの最適解が厳密な動作保証を伴う定常的ポリシーをもたらすことを証明した。
関連論文リスト
- Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Recursively-Constrained Partially Observable Markov Decision Processes [13.8724466775267]
C-POMDPは連続的な決定ステップに対して最適なサブ構造特性に反することを示す。
C-POMDPのオンライン再計画は、この違反による不整合のため、しばしば効果がない。
本稿では,C-POMDPに履歴に依存したコスト制約を課す再帰的制約付きPOMDPを提案する。
論文 参考訳(メタデータ) (2023-10-15T00:25:07Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - LTL-Constrained Steady-State Policy Synthesis [0.0]
マルコフ決定プロセス(MDP)とこれらすべての型を組み合わせた仕様について検討する。
マルチタイプの仕様を多次元の長期平均報酬に還元する統合ソリューションを提供する。
このアルゴリズムは一般の$omega$-regularプロパティにも拡張され、LDBAと同様にMDPのサイズで実行されます。
論文 参考訳(メタデータ) (2021-05-31T11:35:42Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Identification of Unexpected Decisions in Partially Observable
Monte-Carlo Planning: a Rule-Based Approach [78.05638156687343]
本稿では,POMCPポリシーをトレースを検査して分析する手法を提案する。
提案手法は, 政策行動の局所的特性を探索し, 予期せぬ決定を識別する。
我々は,POMDPの標準ベンチマークであるTigerに対するアプローチと,移動ロボットナビゲーションに関する現実の問題を評価した。
論文 参考訳(メタデータ) (2020-12-23T15:09:28Z) - Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。
我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。
提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文 参考訳(メタデータ) (2020-07-16T14:22:55Z) - Multiagent Value Iteration Algorithms in Dynamic Programming and
Reinforcement Learning [0.0]
各段階における制御がいくつかの異なる決定から構成される無限水平動的プログラミング問題を考える。
以前の研究では、ポリシーの反復アルゴリズムを導入しました。
論文 参考訳(メタデータ) (2020-05-04T16:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。