論文の概要: Kalman meets Bellman: Improving Policy Evaluation through Value Tracking
- arxiv url: http://arxiv.org/abs/2002.07171v1
- Date: Mon, 17 Feb 2020 13:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:06:54.604317
- Title: Kalman meets Bellman: Improving Policy Evaluation through Value Tracking
- Title(参考訳): Kalman氏がBellman氏と会う - 価値追跡による政策評価の改善
- Authors: Shirli Di-Castro Shashua, Shie Mannor
- Abstract要約: 政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
- 参考スコア(独自算出の注目度): 59.691919635037216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy evaluation is a key process in Reinforcement Learning (RL). It
assesses a given policy by estimating the corresponding value function. When
using parameterized value functions, common approaches minimize the sum of
squared Bellman temporal-difference errors and receive a point-estimate for the
parameters. Kalman-based and Gaussian-processes based frameworks were suggested
to evaluate the policy by treating the value as a random variable. These
frameworks can learn uncertainties over the value parameters and exploit them
for policy exploration. When adopting these frameworks to solve deep RL tasks,
several limitations are revealed: excessive computations in each optimization
step, difficulty with handling batches of samples which slows training and the
effect of memory in stochastic environments which prevents off-policy learning.
In this work, we discuss these limitations and propose to overcome them by an
alternative general framework, based on the extended Kalman filter. We devise
an optimization method, called Kalman Optimization for Value Approximation
(KOVA) that can be incorporated as a policy evaluation component in policy
optimization algorithms. KOVA minimizes a regularized objective function that
concerns both parameter and noisy return uncertainties. We analyze the
properties of KOVA and present its performance on deep RL control tasks.
- Abstract(参考訳): 政策評価は強化学習(RL)における重要なプロセスである。
対応する値関数を推定することで、所定のポリシーを評価する。
パラメータ化値関数を使用する場合、共通アプローチは正方形のベルマン時間差誤差の和を最小化し、パラメータの点推定を受信する。
Kalman-basedおよびGaussian-processes-based frameworkは、値をランダム変数として扱うことでポリシーを評価することが提案された。
これらのフレームワークは、価値パラメータに関する不確実性を学び、ポリシー探索に利用することができる。
深いrlタスクを解決するためにこれらのフレームワークを採用すると、最適化ステップ毎の過剰な計算、トレーニングを遅らせるサンプルのバッチ処理の難しさ、非ポリティカル学習を防止する確率的環境におけるメモリの影響など、いくつかの制限が明らかになる。
本稿では,これらの制限を議論し,拡張kalmanフィルタに基づく代替汎用フレームワークによって克服することを提案する。
我々は、ポリシー最適化アルゴリズムにおいてポリシー評価コンポーネントとして組み込むことができる、Kalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
我々は、KOVAの特性を分析し、その性能を深いRL制御タスクで示す。
関連論文リスト
- Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies [24.706986328622193]
強化学習のための決定論的目標政策の非政治的評価を考察する。
動作値関数の時間差更新ベクトルの推定値の平均二乗誤差を最小化するカーネルメトリクスを学習する。
この緩和による推定誤差のバイアスとばらつきを導出し、最適なカーネル計量に対する解析解を提供する。
論文 参考訳(メタデータ) (2024-05-29T06:17:33Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。
PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。
その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-04-18T01:27:31Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。