論文の概要: Reducing Sampling Error in Batch Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2008.06738v1
- Date: Sat, 15 Aug 2020 15:30:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 20:36:33.561858
- Title: Reducing Sampling Error in Batch Temporal Difference Learning
- Title(参考訳): バッチ時間差学習におけるサンプリング誤差の低減
- Authors: Brahma Pavse, Ishan Durugkar, Josiah Hanna, Peter Stone
- Abstract要約: 時間差学習(TD)は現代の強化学習の基盤の1つである。
本稿では、標準的TDアルゴリズムであるTD(0)を用いて、与えられたポリシーの値関数をデータのバッチから推定する。
- 参考スコア(独自算出の注目度): 42.30708351947417
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal difference (TD) learning is one of the main foundations of modern
reinforcement learning. This paper studies the use of TD(0), a canonical TD
algorithm, to estimate the value function of a given policy from a batch of
data. In this batch setting, we show that TD(0) may converge to an inaccurate
value function because the update following an action is weighted according to
the number of times that action occurred in the batch -- not the true
probability of the action under the given policy. To address this limitation,
we introduce \textit{policy sampling error corrected}-TD(0) (PSEC-TD(0)).
PSEC-TD(0) first estimates the empirical distribution of actions in each state
in the batch and then uses importance sampling to correct for the mismatch
between the empirical weighting and the correct weighting for updates following
each action. We refine the concept of a certainty-equivalence estimate and
argue that PSEC-TD(0) is a more data efficient estimator than TD(0) for a fixed
batch of data. Finally, we conduct an empirical evaluation of PSEC-TD(0) on
three batch value function learning tasks, with a hyperparameter sensitivity
analysis, and show that PSEC-TD(0) produces value function estimates with lower
mean squared error than TD(0).
- Abstract(参考訳): 時間差学習(TD)は現代の強化学習の基盤の1つである。
本稿では、標準的TDアルゴリズムであるTD(0)を用いて、与えられたポリシーの値関数をデータのバッチから推定する。
このバッチ設定では、td(0) は、アクションに続く更新が、バッチで発生したアクションの数に応じて重み付けされるため、与えられたポリシーの下でのアクションの真の確率ではなく、不正確な値関数に収束する可能性がある。
この制限に対処するため,<textit{policy sample error corrected}-TD(0) (PSEC-TD(0)) を導入する。
PSEC-TD(0)はまず、バッチ中の各状態における動作の実験的分布を推定し、次に重要サンプリングを使用して、各動作に続く更新に対する経験的重み付けと正しい重み付けのミスマッチを補正する。
PSEC-TD(0) は固定されたデータのバッチに対して TD(0) よりもデータ効率のよい推定器であると主張する。
最後に,3つのバッチ値関数学習タスクに対して,超パラメータ感度解析を用いてPSEC-TD(0)を実験的に評価し,平均2乗誤差をTD(0)よりも低い値関数推定値を生成することを示す。
関連論文リスト
- Discerning Temporal Difference Learning [5.439020425819001]
時間差分学習(TD)は強化学習の基礎概念である
我々は、識別型TD学習(DTD)と呼ばれる新しいTDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-12T07:38:10Z) - On the Statistical Benefits of Temporal Difference Learning [6.408072565019087]
アクションのデータセットと結果の長期的な報酬が与えられた場合、直接推定アプローチは値関数に適合する。
直感的な逆軌道プーリング係数は, 平均二乗誤差の減少率を完全に特徴付けることを示す。
2つの状態における値対号差の推定が劇的に改善できることを実証する。
論文 参考訳(メタデータ) (2023-01-30T21:02:25Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Predictor-Corrector(PC) Temporal Difference(TD) Learning (PCTD) [0.0]
Predictor-Corrector Temporal difference (PCTD) は、私が離散時間 ODE の理論から翻訳時間 Reinforcement (RL) アルゴリズムと呼ぶものです。
私は新しいタイプのtd学習アルゴリズムを提案する。
近似されるパラメータは、ODEに対する解のTaylor Seriesエラーのマグニチュード低減の保証された順序を有する。
論文 参考訳(メタデータ) (2021-04-15T18:54:16Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Adaptive Temporal Difference Learning with Linear Function Approximation [29.741034258674205]
本稿では,強化学習における政策評価タスクにおける時間差(TD)学習アルゴリズムを再検討する。
線形関数近似を用いたTD(0)学習アルゴリズムの確率収束適応型射影多様体を開発した。
いくつかの標準強化学習タスクにおいて,AdaTD(0)とAdaTD($lambda$)の性能を評価する。
論文 参考訳(メタデータ) (2020-02-20T02:32:40Z) - Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。