論文の概要: Reward-Relevance-Filtered Linear Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.12934v1
- Date: Tue, 23 Jan 2024 17:42:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 14:57:12.598042
- Title: Reward-Relevance-Filtered Linear Offline Reinforcement Learning
- Title(参考訳): 報酬関連フィルタ付きオフライン強化学習
- Authors: Angela Zhou
- Abstract要約: 線形関数近似を用いたオフライン強化学習を,決定論的に検討するが,推定空間性は考慮しない。
我々は,最低二乗政策評価における閾値ラッソの修正により,スパース成分に対する状態-作用値関数の推定を報奨フィルタする手法を開発した。
我々は, スパース成分のサイズによらず, サンプルの複雑さを考慮し, 報酬フィルタによる線形適合Q-イテレーションを理論的に保証する。
- 参考スコア(独自算出の注目度): 11.712023983596914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies offline reinforcement learning with linear function
approximation in a setting with decision-theoretic, but not estimation
sparsity. The structural restrictions of the data-generating process presume
that the transitions factor into a sparse component that affects the reward and
could affect additional exogenous dynamics that do not affect the reward.
Although the minimally sufficient adjustment set for estimation of full-state
transition properties depends on the whole state, the optimal policy and
therefore state-action value function depends only on the sparse component: we
call this causal/decision-theoretic sparsity. We develop a method for
reward-filtering the estimation of the state-action value function to the
sparse component by a modification of thresholded lasso in least-squares policy
evaluation. We provide theoretical guarantees for our reward-filtered linear
fitted-Q-iteration, with sample complexity depending only on the size of the
sparse component.
- Abstract(参考訳): 本稿では,線形関数近似を用いたオフライン強化学習を決定論的に検討する。
データ生成プロセスの構造的制約は、報酬に影響を及ぼし、報酬に影響を与えない追加の外因性ダイナミクスに影響を与える可能性があるスパースコンポーネントへの遷移因子が想定される。
完全状態遷移特性の推定のための最小限の調整セットは状態全体に依存するが、最適方針と状態-作用値関数はスパース成分のみに依存する: この因果/決定-理論的スパーシティと呼ぶ。
最低二乗政策評価における閾値ラッソの修正によりスパース成分に対する状態-作用値関数の推定を報奨フィルタする手法を開発した。
我々は, スパース成分のサイズによらず, サンプルの複雑さを考慮し, 報酬フィルタによる線形適合Q-イテレーションを理論的に保証する。
関連論文リスト
- Nonparametric estimation of a covariate-adjusted counterfactual
treatment regimen response curve [2.7446241148152253]
治療体制下での平均結果を柔軟に推定することは、パーソナライズされた医療にとって重要なステップである。
本研究では,スムーズな規則応答曲線関数の逆確率重み付き非パラメトリック効率推定器を提案する。
いくつかの有限サンプル特性はシミュレーションによって探索される。
論文 参考訳(メタデータ) (2023-09-28T01:46:24Z) - Solving Non-Rectangular Reward-Robust MDPs via Frequency Regularization [39.740287682191884]
ロバストマルコフ決定過程(RMDP)では、報酬と遷移ダイナミクスは与えられた不確実性集合にあると仮定される。
このいわゆる長方性条件は、単に計算上の問題によって動機付けられている。
政策段階の手法を導入し,その収束性を証明する。
論文 参考訳(メタデータ) (2023-09-03T07:34:26Z) - Anti-Exploration by Random Network Distillation [63.04360288089277]
ランダムネットワーク蒸留 (RND) の条件付けは, 不確実性推定器として用いるのに十分な識別性がないことを示す。
この制限は、FiLM(Feature-wise Linear Modulation)に基づく条件付けによって回避できることを示す。
D4RLベンチマークで評価したところ、アンサンブルベースの手法に匹敵する性能を達成でき、アンサンブルのない手法よりも広いマージンで性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-01-31T13:18:33Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - On the Statistical Efficiency of Reward-Free Exploration in Non-Linear
RL [54.55689632571575]
一般非線形関数近似による報酬なし強化学習(RL)について検討した。
RFOLIVE (Reward-Free OLIVE) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-21T23:17:43Z) - Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks [71.95722100511627]
深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
論文 参考訳(メタデータ) (2022-06-06T20:25:20Z) - A Sharp Characterization of Linear Estimators for Offline Policy
Evaluation [33.37672297925897]
オフライン政策評価は 強化学習の基本的な統計問題です
古典的手法に必要で十分である単純な制御理論と線形代数的条件を同定する。
この結果から, オフライン政策評価のための線形推定器の挙動の全体像が得られた。
論文 参考訳(メタデータ) (2022-03-08T17:52:57Z) - Root-finding Approaches for Computing Conformal Prediction Set [18.405645120971496]
共形予測は、以前の同一分布および交換可能な観測に基づいて、特徴ベクトルの未観測応答に対する信頼領域を構築する。
我々は,共形予測集合が古典的ルートフィンディングソフトウェアによって効率的に近似できる区間であるという事実を活用する。
論文 参考訳(メタデータ) (2021-04-14T06:41:12Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。