論文の概要: Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks
- arxiv url: http://arxiv.org/abs/2206.02887v1
- Date: Mon, 6 Jun 2022 20:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 08:03:12.532537
- Title: Sample Complexity of Nonparametric Off-Policy Evaluation on
Low-Dimensional Manifolds using Deep Networks
- Title(参考訳): ディープネットワークを用いた低次元マニフォールドの非パラメトリックオフポリティ評価のサンプル複雑さ
- Authors: Xiang Ji, Minshuo Chen, Mengdi Wang, Tuo Zhao
- Abstract要約: 深層ニューラルネットワークを用いた強化学習における非政治的評価問題について考察する。
ネットワークサイズを適切に選択することにより、マルコフ決定過程において低次元多様体構造を利用することができることを示す。
- 参考スコア(独自算出の注目度): 71.95722100511627
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the off-policy evaluation problem of reinforcement learning using
deep neural networks. We analyze the deep fitted Q-evaluation method for
estimating the expected cumulative reward of a target policy, when the data are
generated from an unknown behavior policy. We show that, by choosing network
size appropriately, one can leverage the low-dimensional manifold structure in
the Markov decision process and obtain a sample-efficient estimator without
suffering from the curse of high representation dimensionality. Specifically,
we establish a sharp error bound for the fitted Q-evaluation that depends on
the intrinsic low dimension, the smoothness of the state-action space, and a
function class-restricted $\chi^2$-divergence. It is noteworthy that the
restricted $\chi^2$-divergence measures the behavior and target policies' {\it
mismatch in the function space}, which can be small even if the two policies
are not close to each other in their tabular forms. Numerical experiments are
provided to support our theoretical analysis.
- Abstract(参考訳): 深層ニューラルネットワークを用いた強化学習のオフポリシー評価問題を考える。
我々は、未知の行動ポリシーからデータを生成する際に、対象ポリシーの期待累積報酬を推定するための深い適合Q評価法を分析する。
ネットワークサイズを適切に選択することにより,マルコフ決定過程において低次元多様体構造を活用でき,高次元の呪いに苦しむことなくサンプル効率の高い推定値が得られることを示す。
具体的には、本質的な低次元、状態-作用空間の滑らかさ、および関数のクラス制限付き$\chi^2$-divergenceに依存する適合Q-評価の鋭い誤差を確立する。
制限された$\chi^2$-divergence は2つのポリシーが表形式で互いに近接していなくても小さくなるような振る舞いと対象ポリシー' {\it mismatch in the function space} を測定することに注意が必要である。
理論解析を支援するために数値実験を行った。
関連論文リスト
- Automatic Double Reinforcement Learning in Semiparametric Markov Decision Processes with Applications to Long-Term Causal Inference [33.14076284663493]
時間不変マルコフ決定過程(MDPs)における$Q$関数の線形汎関数の効率的な推論について検討する。
これらの制限は重なり合う要求を減らし、効率のバウンドを下げ、より正確な見積もりをもたらす。
特殊ケースとして, 等速適応適応型$Q$-iteration(MDPの新しいキャリブレーションアルゴリズム)を用いた適応型デバイアスドプラグイン推定法を提案する。
論文 参考訳(メタデータ) (2025-01-12T20:35:28Z) - Sample Complexity of Neural Policy Mirror Descent for Policy
Optimization on Low-Dimensional Manifolds [75.51968172401394]
深部畳み込みニューラルネットワーク(CNN)を用いたNPMDアルゴリズムのサンプル複雑性について検討した。
NPMDの各イテレーションでは、値関数とポリシーの両方をCNNによってうまく近似することができる。
NPMDは状態空間の低次元構造を利用して次元の呪いから逃れることができることを示す。
論文 参考訳(メタデータ) (2023-09-25T07:31:22Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - On Last-Layer Algorithms for Classification: Decoupling Representation
from Uncertainty Estimation [27.077741143188867]
本稿では,分類課題を表現学習と不確実性推定の2段階に分けたアルゴリズム群を提案する。
選択的分類(リスクカバレッジ)および分布外サンプルの検出能力の観点から,それらの性能を評価する。
論文 参考訳(メタデータ) (2020-01-22T15:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。