論文の概要: Counterfactual Influence in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2402.08514v1
- Date: Tue, 13 Feb 2024 15:10:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 15:07:51.887411
- Title: Counterfactual Influence in Markov Decision Processes
- Title(参考訳): マルコフ決定過程における逆効果
- Authors: Milad Kazemi, Jessica Lally, Ekaterina Tishchenko, Hana Chockler and
Nicola Paoletti
- Abstract要約: 対実的および介入的分布の比較に基づく影響の形式的特徴化を導入する。
我々は、与えられた報酬構造に最適であるだけでなく、観察された経路に合わせて調整された反事実政策を導出する。
- 参考スコア(独自算出の注目度): 6.5535073117225195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our work addresses a fundamental problem in the context of counterfactual
inference for Markov Decision Processes (MDPs). Given an MDP path $\tau$, this
kind of inference allows us to derive counterfactual paths $\tau'$ describing
what-if versions of $\tau$ obtained under different action sequences than those
observed in $\tau$. However, as the counterfactual states and actions deviate
from the observed ones over time, the observation $\tau$ may no longer
influence the counterfactual world, meaning that the analysis is no longer
tailored to the individual observation, resulting in interventional outcomes
rather than counterfactual ones. Even though this issue specifically affects
the popular Gumbel-max structural causal model used for MDP counterfactuals, it
has remained overlooked until now. In this work, we introduce a formal
characterisation of influence based on comparing counterfactual and
interventional distributions. We devise an algorithm to construct
counterfactual models that automatically satisfy influence constraints.
Leveraging such models, we derive counterfactual policies that are not just
optimal for a given reward structure but also remain tailored to the observed
path. Even though there is an unavoidable trade-off between policy optimality
and strength of influence constraints, our experiments demonstrate that it is
possible to derive (near-)optimal policies while remaining under the influence
of the observation.
- Abstract(参考訳): 我々の研究はマルコフ決定過程(MDP)の反実的推論の文脈における根本的な問題に対処する。
MDPパス $\tau$ が与えられた場合、このような推論は、$\tau'$ が $\tau$ で見られるものと異なるアクションシーケンスで取得した $\tau$ のWhat-ifバージョンを記述することができる。
しかし、反事実状態と行動が時間とともに観察された結果から逸脱するので、観察値の$\tau$はもはや反事実世界に影響を及ぼさない可能性がある。
この問題は、MDP対策に使われる一般的なGumbel-max構造因果モデルに特に影響を及ぼすが、これまで見過ごされてきた。
本稿では,反事実分布と介入分布の比較に基づく影響の形式的特徴化について述べる。
影響制約を自動的に満たす反実モデルを構築するアルゴリズムを考案する。
このようなモデルを活用することで、与えられた報酬構造に最適であるだけでなく、観測された経路に合わせたままである反事実ポリシーを導出する。
政策の最適性と影響制約の強さとの間には不可避なトレードオフがあるが、実験は観測の影響を受けながら(ほぼ)最適政策を導出できることを実証する。
関連論文リスト
- On Counterfactual Interventions in Vector Autoregressive Models [18.39697940783397]
本稿では,ベクトル自己回帰過程の文脈における反実的推論の問題を紹介する。
因果モデルの推論を連立回帰タスクとして定式化する。
過去の対策介入の因果効果を定量化する。
論文 参考訳(メタデータ) (2024-06-27T23:25:57Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes [44.974100402600165]
意思決定プロセス(MDP)に対する最良パラメトリックかつ最悪の摂動の評価について検討する。
我々は、元のMDPからの遷移観測を用いて、それらが同一または異なるポリシーの下で生成されるかのどちらかを判断する。
我々の推定器はウォルドの信頼区間を用いた統計的推測も行う。
論文 参考訳(メタデータ) (2024-03-29T18:11:49Z) - Quantifying the Sensitivity of Inverse Reinforcement Learning to
Misspecification [72.08225446179783]
逆強化学習は、エージェントの行動からエージェントの好みを推測することを目的としている。
これを行うには、$pi$が$R$とどのように関係しているかの振る舞いモデルが必要です。
我々は、IRL問題が行動モデルの不特定性にどれほど敏感であるかを分析する。
論文 参考訳(メタデータ) (2024-03-11T16:09:39Z) - Causal Temporal Reasoning for Markov Decision Processes [4.040829575021796]
マルコフ決定過程(MDP)の検証のための新しい時間論理である $textitPCFTL (Probabilistic CounterFactual Temporal Logic)$ を導入する。
PCFTLは因果推論の演算子を初めて含み、介入的および反事実的クエリを表現できる。
グリッドワールドモデルのベンチマークを用いて,PCFTLを安全な強化学習の文脈で評価する。
論文 参考訳(メタデータ) (2022-12-16T21:11:44Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - The Curse of Passive Data Collection in Batch Reinforcement Learning [82.6026077420886]
高い利害関係のアプリケーションでは、アクティブな実験は危険すぎると考えられ、データはしばしば受動的に収集される。
バンディットやパッシブ、アクティブなデータ収集などの単純な場合も同様に効果的であるが、制御された状態のシステムからデータを集める場合、パッシブサンプリングの価格ははるかに高い。
論文 参考訳(メタデータ) (2021-06-18T07:54:23Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z) - The Counterfactual $\chi$-GAN [20.42556178617068]
因果推論は、しばしば、治療の割り当てが結果から独立していることを要求する反ファクト的枠組みに依存する。
本研究は,CGAN(Counterfactual $chi$-GAN)と呼ばれるGAN(Generative Adversarial Network)に基づくモデルを提案する。
論文 参考訳(メタデータ) (2020-01-09T17:23:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。