論文の概要: Off-policy Evaluation with Deeply-abstracted States
- arxiv url: http://arxiv.org/abs/2406.19531v2
- Date: Wed, 02 Oct 2024 12:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:15.862453
- Title: Off-policy Evaluation with Deeply-abstracted States
- Title(参考訳): 過酷な国家によるオフ政治評価
- Authors: Meiling Hao, Pingfan Su, Liyuan Hu, Zoltan Szabo, Qingyuan Zhao, Chengchun Shi,
- Abstract要約: オフポリシー評価(OPE)は、デプロイ前にターゲットポリシーの影響をオフラインに評価するために不可欠である。
大規模な状態空間において正確なOPEを実現することは依然として困難である。
本稿では、OPEの文脈における状態抽象化(もともとポリシー学習用に設計された)について研究する。
- 参考スコア(独自算出の注目度): 8.217357233801545
- License:
- Abstract: Off-policy evaluation (OPE) is crucial for assessing a target policy's impact offline before its deployment. However, achieving accurate OPE in large state spaces remains challenging. This paper studies state abstractions -- originally designed for policy learning -- in the context of OPE. Our contributions are three-fold: (i) We define a set of irrelevance conditions central to learning state abstractions for OPE, and derive a backward-model-irrelevance condition for achieving irrelevance in %sequential and (marginalized) importance sampling ratios by constructing a time-reversed Markov decision process (MDP). (ii) We propose a novel iterative procedure that sequentially projects the original state space into a smaller space, resulting in a deeply-abstracted state, which substantially simplifies the sample complexity of OPE arising from high cardinality. (iii) We prove the Fisher consistencies of various OPE estimators when applied to our proposed abstract state spaces.
- Abstract(参考訳): オフポリシー評価(OPE)は、デプロイ前にターゲットポリシーの影響をオフラインに評価するために不可欠である。
しかし、大規模な状態空間において正確なOPEを実現することは依然として困難である。
本稿では、OPEの文脈における状態抽象化(もともとポリシー学習用に設計された)について研究する。
私たちの貢献は3倍です。
i) OPEの学習状態抽象化の中心となる無関係条件の集合を定義し、時間反転マルコフ決定プロセス(MDP)を構築することにより、%連続かつ(マージナライズされた)重要サンプリング比の無関係を達成するための後方モデル非関連条件を導出する。
2) 原状態空間を連続的に小さな空間に投影し, 高い濃度から生じるOPEのサンプル複雑性を著しく単純化する手法を提案する。
3)提案した抽象状態空間に適用した場合の各種OPE推定器のフィッシャー成分の証明を行う。
関連論文リスト
- Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation [20.663398371026194]
本稿では,広範囲な推定対象を含む非政治評価のためのフレームワークSTARを紹介する。
実験により,STAR内の推定器が既存手法より優れていることを示す。
最適なSTAR推定器は, 調査対象12例すべてにおいて, ベースラインを上回った。
論文 参考訳(メタデータ) (2024-10-03T03:19:43Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - PcLast: Discovering Plannable Continuous Latent States [24.78767380808056]
我々は、効率的な計画と目標条件付き政策学習のために、到達可能な状態を関連付ける表現を学習する。
提案手法は各種シミュレーションテストベッドで厳密に検証されている。
論文 参考訳(メタデータ) (2023-11-06T21:16:37Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - Quantile Off-Policy Evaluation via Deep Conditional Generative Learning [21.448553360543478]
Off-Policy Evaluation (OPE) は、潜在的に異なる行動ポリシーによって生成されたオフラインデータを用いて、新しいターゲットポリシーを評価することに関心がある。
本稿では、逐次決定における量子OPEの2倍のロス率推論手順を提案する。
本提案手法の利点は,シミュレーションと,ショートビデオプラットフォームによる実世界のデータセットの両方を用いて示す。
論文 参考訳(メタデータ) (2022-12-29T22:01:43Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Projected State-action Balancing Weights for Offline Reinforcement
Learning [9.732863739456034]
本稿では,潜在的に異なるポリシから生成された事前収集データに基づいて,対象ポリシーの価値を推定することに焦点を当てる。
政策値推定のための状態-作用バランスウェイトを概算した新しい推定器を提案する。
数値実験により提案した推定器の性能を実証した。
論文 参考訳(メタデータ) (2021-09-10T03:00:44Z) - Enforcing Almost-Sure Reachability in POMDPs [10.883864654718103]
部分観測可能なマルコフ決定プロセス(POMDP)は、限られた情報の下での逐次決定のためのよく知られたモデルである。
我々は、悪い状態にたどり着くことなく、ほぼ確実に目標状態に達するような、EXPTIMEの難題を考察する。
SATに基づく新しい反復手法と,決定図に基づく代替手法の2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-30T19:59:46Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。