論文の概要: Towards Causal Temporal Reasoning for Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2212.08712v1
- Date: Fri, 16 Dec 2022 21:11:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:44:18.230296
- Title: Towards Causal Temporal Reasoning for Markov Decision Processes
- Title(参考訳): マルコフ決定過程の因果時間推論に向けて
- Authors: Milad Kazemi and Nicola Paoletti
- Abstract要約: マルコフ決定過程(MDP)の検証のための新しい確率的時間論理を導入する。
我々の論理は、最初に因果推論の演算子を含むもので、干渉的および反事実的クエリを表現できる。
グリッド・ワールド・モデルにおけるリーチ・アロイド・タスクにおける論理の概念実証評価を行う。
- 参考スコア(独自算出の注目度): 4.040829575021796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new probabilistic temporal logic for the verification of
Markov Decision Processes (MDP). Our logic is the first to include operators
for causal reasoning, allowing us to express interventional and counterfactual
queries. Given a path formula $\phi$, an interventional property is concerned
with the satisfaction probability of $\phi$ if we apply a particular change $I$
to the MDP (e.g., switching to a different policy); a counterfactual allows us
to compute, given an observed MDP path $\tau$, what the outcome of $\phi$ would
have been had we applied $I$ in the past. For its ability to reason about
different configurations of the MDP, our approach represents a departure from
existing probabilistic temporal logics that can only reason about a fixed
system configuration. From a syntactic viewpoint, we introduce a generalized
counterfactual operator that subsumes both interventional and counterfactual
probabilities as well as the traditional probabilistic operator found in e.g.,
PCTL. From a semantics viewpoint, our logic is interpreted over a structural
causal model (SCM) translation of the MDP, which gives us a representation
amenable to counterfactual reasoning. We provide a proof-of-concept evaluation
of our logic on a reach-avoid task in a grid-world model.
- Abstract(参考訳): 我々はマルコフ決定過程(MDP)の検証のための新しい確率的時間論理を導入する。
我々の論理は、最初に因果推論の演算子を含み、干渉的および反事実的クエリを表現できる。
経路公式 $\phi$ が与えられたとき、介入性は、特定の変更 $I$ を MDP に適用した場合に$\phi$ の満足度確率に関係する(例えば、別のポリシーに切り替えるなど)。
MDPの異なる構成を推論できるため、我々のアプローチは、固定されたシステム構成のみを推論できる既存の確率的時間論理から逸脱することを意味する。
統語論的観点から,PCTLなどの従来の確率演算子と同様に,介入確率と反ファクト確率の両方を仮定する一般化された反ファクト演算子を導入する。
セマンティクスの観点から、我々の論理はMDPの構造因果モデル(SCM)の翻訳を通して解釈される。
グリッドワールドモデルにおけるリーチ回避タスクの論理を概念実証的に評価する。
関連論文リスト
- On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning [87.73401758641089]
CoT推論による現代言語モデル(LM)の性能向上
LMは弦上の分布の族を確率的チューリングマシンと同一に表現できることを示す。
論文 参考訳(メタデータ) (2024-06-20T10:59:02Z) - Counterfactual Influence in Markov Decision Processes [6.5535073117225195]
対実的および介入的分布の比較に基づく影響の形式的特徴化を導入する。
我々は、与えられた報酬構造に最適であるだけでなく、観察された経路に合わせて調整された反事実政策を導出する。
論文 参考訳(メタデータ) (2024-02-13T15:10:30Z) - B$^3$RTDP: A Belief Branch and Bound Real-Time Dynamic Programming
Approach to Solving POMDPs [17.956744635160568]
我々は,Belief Branch and Bound RTDP (B$3$RTDP) と呼ぶRTDP-Belアルゴリズムの拡張を提案する。
我々のアルゴリズムは有界値関数表現を使い、これを2つの新しい方法で活用する。
B$3$RTDPは、既知のPOMDP問題に対する最先端のSARSOP解法よりも少ない時間で大きなリターンが得られることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-22T21:42:59Z) - Causal Proxy Models for Concept-Based Model Explanations [12.656981798587095]
本稿では, 因果関係を近似的に説明し, 因果関係を解析し, 因果関係を解明する手法を提案する。
Causal Proxy Model (CPM) はブラックボックスモデル $mathcalN$ を説明する。
本稿では,$mathcalN$のCPMが$mathcalN$と同等に実際の予測を行うことを示す。
論文 参考訳(メタデータ) (2022-09-28T17:45:07Z) - PAC Statistical Model Checking of Mean Payoff in Discrete- and
Continuous-Time MDP [0.34410212782758043]
我々は,未知のMDPにおいて,平均ペイオフをほぼ正確に計算する最初のアルゴリズムを提供する。
状態空間に関する知識は一切必要とせず、最小遷移確率の低い境界のみである。
提案アルゴリズムは, ほぼ正しいPAC境界を提供するだけでなく, 標準ベンチマークで実験を行うことにより, その実用性を実証する。
論文 参考訳(メタデータ) (2022-06-03T09:13:27Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Consistent Sufficient Explanations and Minimal Local Rules for
explaining regression and classification models [0.0]
我々は確率的十分説明(P-SE)の概念を拡張した
P-SEの要点は、同じ予測を維持する条件確率を計算することである。
我々は、$X$の分布を学ばず、予測を行うモデルも持たない非バイナリ機能に対処する。
論文 参考訳(メタデータ) (2021-11-08T17:27:52Z) - Logical Credal Networks [87.25387518070411]
本稿では,論理と確率を組み合わせた先行モデルの多くを一般化した表現的確率論的論理である論理的クレダルネットワークを紹介する。
本稿では,不確実性のあるマスターミンドゲームを解くこと,クレジットカード詐欺を検出することを含む,最大後部推論タスクの性能について検討する。
論文 参考訳(メタデータ) (2021-09-25T00:00:47Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Tractable Inference in Credal Sentential Decision Diagrams [116.6516175350871]
確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。
我々は、局所確率を質量関数のクレーダル集合に置き換えることができる確率の一般化である、クレーダル感性決定図を開発する。
まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2020-08-19T16:04:34Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。