論文の概要: A Tale of Sampling and Estimation in Discounted Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2304.05073v1
- Date: Tue, 11 Apr 2023 09:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 15:39:37.431530
- Title: A Tale of Sampling and Estimation in Discounted Reinforcement Learning
- Title(参考訳): 割引強化学習におけるサンプリングと推定の物語
- Authors: Alberto Maria Metelli, Mirco Mutti, Marcello Restelli
- Abstract要約: 割引平均推定問題に対して最小値の最小値を求める。
マルコフ過程の割引されたカーネルから直接サンプリングすることで平均を推定すると、説得力のある統計的性質が得られることを示す。
- 参考スコア(独自算出の注目度): 50.43256303670011
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The most relevant problems in discounted reinforcement learning involve
estimating the mean of a function under the stationary distribution of a Markov
reward process, such as the expected return in policy evaluation, or the policy
gradient in policy optimization. In practice, these estimates are produced
through a finite-horizon episodic sampling, which neglects the mixing
properties of the Markov process. It is mostly unclear how this mismatch
between the practical and the ideal setting affects the estimation, and the
literature lacks a formal study on the pitfalls of episodic sampling, and how
to do it optimally. In this paper, we present a minimax lower bound on the
discounted mean estimation problem that explicitly connects the estimation
error with the mixing properties of the Markov process and the discount factor.
Then, we provide a statistical analysis on a set of notable estimators and the
corresponding sampling procedures, which includes the finite-horizon estimators
often used in practice. Crucially, we show that estimating the mean by directly
sampling from the discounted kernel of the Markov process brings compelling
statistical properties w.r.t. the alternative estimators, as it matches the
lower bound without requiring a careful tuning of the episode horizon.
- Abstract(参考訳): 割引強化学習における最も関連する問題は、政策評価の期待リターンや政策最適化の政策勾配など、マルコフ報酬プロセスの定常分布下の関数の平均を推定することである。
実際には、これらの推定はマルコフ過程の混合特性を無視した有限水平エピソードサンプリングによって生成される。
この実用的設定と理想的設定のミスマッチが推定にどのように影響するかはほとんど不明であり、文献にはエピソジックサンプリングの落とし穴に関する形式的な研究が欠けている。
本稿では,推定誤差をマルコフ過程の混合特性と割引係数とを明示的に結合する,割引平均推定問題に対する最小値の最小値について述べる。
次に,実際によく用いられる有限ホライゾン推定器を含む,注目すべき推定器群と対応するサンプリング手順に関する統計解析を行う。
重要となるのは,マルコフ過程の割引カーネルから直接サンプリングすることで平均を推定することは,エピソードの地平線を注意深く調整することなく下限と一致するため,w.r.t.代替推定器を説得力のある統計特性をもたらすことである。
関連論文リスト
- Sample-efficient neural likelihood-free Bayesian inference of implicit HMMs [1.8843687952462742]
暗黙的HMMの高次元隠蔽状態を推定するための, 試料効率の低い新しい手法を提案する。
提案手法は,マルコフ特性を利用した自己回帰フローを用いて,隠れ状態の難解な後部分布を直接学習することに依存する。
論文 参考訳(メタデータ) (2024-05-02T21:13:34Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Optimal variance-reduced stochastic approximation in Banach spaces [114.8734960258221]
可分バナッハ空間上で定義された収縮作用素の定点を推定する問題について検討する。
演算子欠陥と推定誤差の両方に対して漸近的でない境界を確立する。
論文 参考訳(メタデータ) (2022-01-21T02:46:57Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Black-box Off-policy Estimation for Infinite-Horizon Reinforcement
Learning [26.880437279977155]
医療やロボティクスといった多くの現実的な応用において、長期的問題に対するオフ・ポリティクス推定が重要である。
政治外データの収集方法を知らずに定常分布の重要度を算出する新しい推定器を開発した。
論文 参考訳(メタデータ) (2020-03-24T21:44:51Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。