論文の概要: Chaining Value Functions for Off-Policy Learning
- arxiv url: http://arxiv.org/abs/2201.06468v1
- Date: Mon, 17 Jan 2022 15:26:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 12:57:55.914663
- Title: Chaining Value Functions for Off-Policy Learning
- Title(参考訳): オフポリティ学習のための連鎖値関数
- Authors: Simon Schmitt, John Shawe-Taylor, Hado van Hasselt
- Abstract要約: 本稿では,建設によって収束する非政治予測アルゴリズムの新たなファミリについて論じる。
提案手法は収束し、逆鍵行列の反復分解に対応することを証明した。
Baird氏の例のようなMDPに挑戦するアイデアを実証的に評価し,好意的な結果が得られた。
- 参考スコア(独自算出の注目度): 22.54793586116019
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To accumulate knowledge and improve its policy of behaviour, a reinforcement
learning agent can learn `off-policy' about policies that differ from the
policy used to generate its experience. This is important to learn
counterfactuals, or because the experience was generated out of its own
control. However, off-policy learning is non-trivial, and standard
reinforcement-learning algorithms can be unstable and divergent.
In this paper we discuss a novel family of off-policy prediction algorithms
which are convergent by construction. The idea is to first learn on-policy
about the data-generating behaviour, and then bootstrap an off-policy value
estimate on this on-policy estimate, thereby constructing a value estimate that
is partially off-policy. This process can be repeated to build a chain of value
functions, each time bootstrapping a new estimate on the previous estimate in
the chain. Each step in the chain is stable and hence the complete algorithm is
guaranteed to be stable. Under mild conditions this comes arbitrarily close to
the off-policy TD solution when we increase the length of the chain. Hence it
can compute the solution even in cases where off-policy TD diverges.
We prove that the proposed scheme is convergent and corresponds to an
iterative decomposition of the inverse key matrix. Furthermore it can be
interpreted as estimating a novel objective -- that we call a `k-step
expedition' -- of following the target policy for finitely many steps before
continuing indefinitely with the behaviour policy. Empirically we evaluate the
idea on challenging MDPs such as Baird's counter example and observe favourable
results.
- Abstract(参考訳): 知識を蓄積し、行動方針を改善するために、強化学習エージェントは、その経験を生み出すために使用される方針とは異なる政策について「オフ・ポリティ」を学ぶことができる。
これは反事実を学ぶために重要であり、また経験が自身のコントロールから生み出されたからである。
しかし、非政治的な学習は簡単ではなく、標準的な強化学習アルゴリズムは不安定でばらつきがある。
本稿では,構成によって収束する新しいオフポリシー予測アルゴリズムについて述べる。
この考え方は、まずデータ生成行動に関するオンポリシーを学び、次にこのオンポリシー推定に基づいてオフポリシー値推定をブートストラップすることで、部分的にオフポリシーである値推定を構築することである。
このプロセスは繰り返して値関数の連鎖を構築することができ、各時間はチェーンの前の見積もりで新しい見積もりをブートストラップする。
チェーンの各ステップは安定しており、完全アルゴリズムは安定であることが保証される。
穏やかな条件下では、鎖の長さが増加すると、これは外部のTD溶液に任意に近づく。
したがって、オフポリシーtdが分岐した場合でも、解を計算できる。
提案手法が収束し,逆鍵行列の反復分解に対応することを証明した。
さらに、行動方針を無期限に継続する前に、有限段階の目標方針に従うという、新しい目標である「k-step expedition」を推定するものとして解釈することもできる。
Baird氏の例のようなMDPに挑戦するアイデアを実証的に評価し,良好な結果を得た。
関連論文リスト
- Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z) - Statistical Inference of the Value Function for Reinforcement Learning
in Infinite Horizon Settings [0.0]
我々は、決定ポイントの数が無限大に分散する無限の地平線設定において、ポリシーの値に対する信頼区間(CI)を構築する。
最適方針が一意でない場合でも,提案したCIが名目上のカバレッジを達成することを示す。
提案手法をモバイル健康研究のデータセットに適用し, 強化学習アルゴリズムが患者の健康状態を改善するのに役立つことを確かめた。
論文 参考訳(メタデータ) (2020-01-13T19:42:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。