論文の概要: A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions
- arxiv url: http://arxiv.org/abs/2201.01836v1
- Date: Wed, 5 Jan 2022 21:54:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-07 14:07:43.505267
- Title: A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions
- Title(参考訳): 価値学習のための一般化ブートストラップターゲット : 価値予測と特徴予測を効率的に組み合わせて
- Authors: Anthony GX-Chen, Veronica Chelu, Blake A. Richards, Joelle Pineau
- Abstract要約: 値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
- 参考スコア(独自算出の注目度): 39.17511693008055
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Estimating value functions is a core component of reinforcement learning
algorithms. Temporal difference (TD) learning algorithms use bootstrapping,
i.e. they update the value function toward a learning target using value
estimates at subsequent time-steps. Alternatively, the value function can be
updated toward a learning target constructed by separately predicting successor
features (SF)--a policy-dependent model--and linearly combining them with
instantaneous rewards. We focus on bootstrapping targets used when estimating
value functions, and propose a new backup target, the $\eta$-return mixture,
which implicitly combines value-predictive knowledge (used by TD methods) with
(successor) feature-predictive knowledge--with a parameter $\eta$ capturing how
much to rely on each. We illustrate that incorporating predictive knowledge
through an $\eta\gamma$-discounted SF model makes more efficient use of sampled
experience, compared to either extreme, i.e. bootstrapping entirely on the
value function estimate, or bootstrapping on the product of separately
estimated successor features and instantaneous reward models. We empirically
show this approach leads to faster policy evaluation and better control
performance, for tabular and nonlinear function approximations, indicating
scalability and generality.
- Abstract(参考訳): 値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
時間差(TD)学習アルゴリズムはブートストラップ(ブートストラップ)を用いる。
あるいは、後継特徴(sf)-ポリシー依存モデル--を別々に予測し、それらを即時報酬と線形に組み合わせて構築した学習目標に向けて値関数を更新することができる。
我々は、値関数の推定に使用されるターゲットのブートストラップに焦点をあて、新しいバックアップターゲットである$\eta$-returnmixを提案し、これは、(TDメソッドで使用される)値予測の知識と(successor)機能予測の知識を暗黙的に組み合わせ、パラメータ$$\eta$で、それぞれにどれだけ依存するかをキャプチャする。
予測的知識を$\eta\gamma$-discountedsfモデルで組み込むことで、サンプル化された経験をより効率的に利用することができることを示す。
本稿では, この手法が, 拡張性と汎用性を示す表や非線形関数近似に対して, より高速なポリシー評価と制御性能の向上につながることを実証的に示す。
関連論文リスト
- Prediction and Control in Continual Reinforcement Learning [39.30411018922005]
時間差(TD)学習は、RLエージェントが有用なポリシーを抽出するために使用する値関数の見積を更新するためにしばしば使用される。
本稿では,値関数を異なる時間スケールで更新する2つのコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-12-18T19:23:42Z) - Learning to Rank for Active Learning via Multi-Task Bilevel Optimization [29.207101107965563]
データ取得のための学習代理モデルを用いて、ラベルのないインスタンスのバッチを選択することを目的とした、アクティブな学習のための新しいアプローチを提案する。
このアプローチにおける重要な課題は、ユーティリティ関数の入力の一部を構成するデータの歴史が時間とともに増大するにつれて、よく一般化する取得関数を開発することである。
論文 参考訳(メタデータ) (2023-10-25T22:50:09Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - Accelerating Policy Gradient by Estimating Value Function from Prior
Computation in Deep Reinforcement Learning [16.999444076456268]
そこで本研究では,事前計算を用いて値関数を推定し,オンライン政策勾配法におけるサンプル効率を向上する方法について検討する。
特に,対象タスクに対する新しい値関数を事前の値推定と組み合わせて学習する。
結果の値関数は、ポリシー勾配法におけるベースラインとして使用される。
論文 参考訳(メタデータ) (2023-02-02T20:23:22Z) - Direct Advantage Estimation [63.52264764099532]
予測されるリターンは、学習を遅くする可能性のある望ましくない方法でポリシーに依存する可能性があることを示します。
本稿では,優位関数をモデル化し,データから直接推定する手法として,DAE(Direct Advantage Estimation)を提案する。
望むなら、値関数をDAEにシームレスに統合して、時間差学習と同様の方法で更新することもできる。
論文 参考訳(メタデータ) (2021-09-13T16:09:31Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - META-Learning Eligibility Traces for More Sample Efficient Temporal
Difference Learning [2.0559497209595823]
そこで本稿では,状態依存的な方法で,可視性トレースパラメータを調整するためのメタラーニング手法を提案する。
この適応は、更新対象の分布情報をオンラインで学習する補助学習者の助けを借りて達成される。
提案手法は,いくつかの前提条件下では,全体の目標誤差を最小限に抑えて,更新対象の全体的な品質を改善する。
論文 参考訳(メタデータ) (2020-06-16T03:41:07Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。