論文の概要: Adaptive Exploration for Data-Efficient General Value Function Evaluations
- arxiv url: http://arxiv.org/abs/2405.07838v1
- Date: Mon, 13 May 2024 15:24:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 13:06:14.536245
- Title: Adaptive Exploration for Data-Efficient General Value Function Evaluations
- Title(参考訳): データ効率の良い一般値関数評価のための適応探索
- Authors: Arushi Jain, Josiah P. Hanna, Doina Precup,
- Abstract要約: 一般値関数(GVF)は、強化学習における予測的知識を表現するための確立された方法である。
複数のGVFは、単一のデータストリームからのオフポリシー学習を使用して、並列に推定することができる。
GVFExplorerは、複数のGVFを並列に評価するためのデータを効率的に収集する行動ポリシーを学ぶことを目的としている。
- 参考スコア(独自算出の注目度): 40.156127789708265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General Value Functions (GVFs) (Sutton et al, 2011) are an established way to represent predictive knowledge in reinforcement learning. Each GVF computes the expected return for a given policy, based on a unique pseudo-reward. Multiple GVFs can be estimated in parallel using off-policy learning from a single stream of data, often sourced from a fixed behavior policy or pre-collected dataset. This leaves an open question: how can behavior policy be chosen for data-efficient GVF learning? To address this gap, we propose GVFExplorer, which aims at learning a behavior policy that efficiently gathers data for evaluating multiple GVFs in parallel. This behavior policy selects actions in proportion to the total variance in the return across all GVFs, reducing the number of environmental interactions. To enable accurate variance estimation, we use a recently proposed temporal-difference-style variance estimator. We prove that each behavior policy update reduces the mean squared error in the summed predictions over all GVFs. We empirically demonstrate our method's performance in both tabular representations and nonlinear function approximation.
- Abstract(参考訳): 一般値関数 (GVF) (Sutton et al, 2011) は、強化学習における予測的知識を表現するための確立された方法である。
各GVFは、ユニークな擬似逆数に基づいて、所定のポリシーに対する期待された戻り値を計算する。
複数のGVFは、単一のデータストリームからのオフポリシー学習を使用して並列に推定することができる。
データ効率のよいGVF学習において,行動ポリシーをどのように選択すればよいのか?
このギャップに対処するために,複数のGVFを並列に評価するデータを効率的に収集する行動ポリシーの学習を目的としたGVFExplorerを提案する。
この行動ポリシーは、すべてのGVFのリターンの総変動に比例して行動を選択し、環境相互作用の数を減らす。
正確な分散推定を実現するために,最近提案された時間差分推定器を用いる。
我々は,各行動ポリシー更新が,全GVFの総和予測における平均2乗誤差を低減することを証明した。
本手法の性能を表象表現と非線形関数近似の両方で実証的に示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - A Unified Off-Policy Evaluation Approach for General Value Function [131.45028999325797]
一般価値関数(GVF)は、強化学習(RL)における予測的知識と振り返り的知識の両方を表現する強力なツールである。
本稿では,GVF評価のためのGenTDと呼ばれる新しいアルゴリズムを提案する。
我々は、GenTDが単一の標準スカラー値関数と同じくらい効率的に複数の相互関連多次元GVFを学習することを示す。
論文 参考訳(メタデータ) (2021-07-06T16:20:34Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。