論文の概要: Adaptive Exploration for Data-Efficient General Value Function Evaluations
- arxiv url: http://arxiv.org/abs/2405.07838v2
- Date: Sun, 13 Oct 2024 15:54:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:04:09.436008
- Title: Adaptive Exploration for Data-Efficient General Value Function Evaluations
- Title(参考訳): データ効率の良い一般値関数評価のための適応探索
- Authors: Arushi Jain, Josiah P. Hanna, Doina Precup,
- Abstract要約: 一般値関数(GVF)は強化学習における予測的知識を表す。
GVFExplorerは、複数のGVFを並列に評価するためのデータを効率的に収集する単一の行動ポリシーを学ぶ。
- 参考スコア(独自算出の注目度): 40.156127789708265
- License:
- Abstract: General Value Functions (GVFs) (Sutton et al., 2011) represent predictive knowledge in reinforcement learning. Each GVF computes the expected return for a given policy, based on a unique reward. Existing methods relying on fixed behavior policies or pre-collected data often face data efficiency issues when learning multiple GVFs in parallel using off-policy methods. To address this, we introduce GVFExplorer, which adaptively learns a single behavior policy that efficiently collects data for evaluating multiple GVFs in parallel. Our method optimizes the behavior policy by minimizing the total variance in return across GVFs, thereby reducing the required environmental interactions. We use an existing temporal-difference-style variance estimator to approximate the return variance. We prove that each behavior policy update decreases the overall mean squared error in GVF predictions. We empirically show our method's performance in tabular and nonlinear function approximation settings, including Mujoco environments, with stationary and non-stationary reward signals, optimizing data usage and reducing prediction errors across multiple GVFs.
- Abstract(参考訳): 一般値関数 (GVFs) (Sutton et al , 2011) は強化学習における予測的知識を表す。
各GVFは、一意の報酬に基づいて、所定のポリシーに対する期待されたリターンを計算する。
既存の手法は、複数のGVFを並列に学習する際に、固定された行動ポリシーや事前コンパイルされたデータに依存することが多い。
本稿では,複数のGVFを並列に評価するデータを効率的に収集する単一行動ポリシーを適応的に学習するGVFExplorerを提案する。
提案手法は,GVF間のリターンの総変動を最小化し,必要な環境相互作用を低減し,行動ポリシーを最適化する。
既存の時間差型分散推定器を用いて、戻り値の分散を近似する。
GVF予測において,各行動ポリシー更新が全体の平均二乗誤差を減少させることを示す。
複数のGVFにおけるデータ使用率の最適化と予測誤差の低減を図るため,Mujoco環境を含む表型および非線形関数近似設定において,本手法の性能を実証的に示す。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - A Unified Off-Policy Evaluation Approach for General Value Function [131.45028999325797]
一般価値関数(GVF)は、強化学習(RL)における予測的知識と振り返り的知識の両方を表現する強力なツールである。
本稿では,GVF評価のためのGenTDと呼ばれる新しいアルゴリズムを提案する。
我々は、GenTDが単一の標準スカラー値関数と同じくらい効率的に複数の相互関連多次元GVFを学習することを示す。
論文 参考訳(メタデータ) (2021-07-06T16:20:34Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。