論文の概要: Kalman meets Bellman: Improving Policy Evaluation through Value Tracking
- arxiv url: http://arxiv.org/abs/2002.07171v1
- Date: Mon, 17 Feb 2020 13:30:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 12:06:54.604317
- Title: Kalman meets Bellman: Improving Policy Evaluation through Value Tracking
- Title(参考訳): Kalman氏がBellman氏と会う - 価値追跡による政策評価の改善
- Authors: Shirli Di-Castro Shashua, Shie Mannor
- Abstract要約: 政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
- 参考スコア(独自算出の注目度): 59.691919635037216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy evaluation is a key process in Reinforcement Learning (RL). It
assesses a given policy by estimating the corresponding value function. When
using parameterized value functions, common approaches minimize the sum of
squared Bellman temporal-difference errors and receive a point-estimate for the
parameters. Kalman-based and Gaussian-processes based frameworks were suggested
to evaluate the policy by treating the value as a random variable. These
frameworks can learn uncertainties over the value parameters and exploit them
for policy exploration. When adopting these frameworks to solve deep RL tasks,
several limitations are revealed: excessive computations in each optimization
step, difficulty with handling batches of samples which slows training and the
effect of memory in stochastic environments which prevents off-policy learning.
In this work, we discuss these limitations and propose to overcome them by an
alternative general framework, based on the extended Kalman filter. We devise
an optimization method, called Kalman Optimization for Value Approximation
(KOVA) that can be incorporated as a policy evaluation component in policy
optimization algorithms. KOVA minimizes a regularized objective function that
concerns both parameter and noisy return uncertainties. We analyze the
properties of KOVA and present its performance on deep RL control tasks.
- Abstract(参考訳): 政策評価は強化学習(RL)における重要なプロセスである。
対応する値関数を推定することで、所定のポリシーを評価する。
パラメータ化値関数を使用する場合、共通アプローチは正方形のベルマン時間差誤差の和を最小化し、パラメータの点推定を受信する。
Kalman-basedおよびGaussian-processes-based frameworkは、値をランダム変数として扱うことでポリシーを評価することが提案された。
これらのフレームワークは、価値パラメータに関する不確実性を学び、ポリシー探索に利用することができる。
深いrlタスクを解決するためにこれらのフレームワークを採用すると、最適化ステップ毎の過剰な計算、トレーニングを遅らせるサンプルのバッチ処理の難しさ、非ポリティカル学習を防止する確率的環境におけるメモリの影響など、いくつかの制限が明らかになる。
本稿では,これらの制限を議論し,拡張kalmanフィルタに基づく代替汎用フレームワークによって克服することを提案する。
我々は、ポリシー最適化アルゴリズムにおいてポリシー評価コンポーネントとして組み込むことができる、Kalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
我々は、KOVAの特性を分析し、その性能を深いRL制御タスクで示す。
関連論文リスト
- Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - $K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic
Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。
私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。
他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文 参考訳(メタデータ) (2023-06-07T23:55:12Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。