論文の概要: Learning Successor States and Goal-Dependent Values: A Mathematical
Viewpoint
- arxiv url: http://arxiv.org/abs/2101.07123v1
- Date: Mon, 18 Jan 2021 15:33:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 05:54:16.383875
- Title: Learning Successor States and Goal-Dependent Values: A Mathematical
Viewpoint
- Title(参考訳): 継承状態とゴール依存値の学習:数学的視点
- Authors: L\'eonard Blier, Corentin Tallec, Yann Ollivier
- Abstract要約: 後続状態とゴール依存値関数学習のための時間差アルゴリズムを導出する。
連続環境においても有限分散推定器を提供する。
長期依存関係に対する固定ポイントを完全に理解しています。
- 参考スコア(独自算出の注目度): 18.70146287117806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In reinforcement learning, temporal difference-based algorithms can be
sample-inefficient: for instance, with sparse rewards, no learning occurs until
a reward is observed. This can be remedied by learning richer objects, such as
a model of the environment, or successor states. Successor states model the
expected future state occupancy from any given state for a given policy and are
related to goal-dependent value functions, which learn how to reach arbitrary
states. We formally derive the temporal difference algorithm for successor
state and goal-dependent value function learning, either for discrete or for
continuous environments with function approximation. Especially, we provide
finite-variance estimators even in continuous environments, where the reward
for exactly reaching a goal state becomes infinitely sparse. Successor states
satisfy more than just the Bellman equation: a backward Bellman operator and a
Bellman-Newton (BN) operator encode path compositionality in the environment.
The BN operator is akin to second-order gradient descent methods and provides
the true update of the value function when acquiring more observations, with
explicit tabular bounds. In the tabular case and with infinitesimal learning
rates, mixing the usual and backward Bellman operators provably improves
eigenvalues for asymptotic convergence, and the asymptotic convergence of the
BN operator is provably better than TD, with a rate independent from the
environment. However, the BN method is more complex and less robust to sampling
noise. Finally, a forward-backward (FB) finite-rank parameterization of
successor states enjoys reduced variance and improved samplability, provides a
direct model of the value function, has fully understood fixed points
corresponding to long-range dependencies, approximates the BN method, and
provides two canonical representations of states as a byproduct.
- Abstract(参考訳): 強化学習では、時間差に基づくアルゴリズムはサンプル非効率であり、例えば、スパース報酬の場合、報酬が観察されるまで学習は行われない。
これは、環境のモデルや後継状態といったよりリッチなオブジェクトを学習することで解決できる。
後継状態は、ある政策の任意の状態から期待される将来の状態占有度をモデル化し、任意の状態に到達する方法を学習するゴール依存値関数と関連付ける。
我々は,後続状態と目標依存値関数学習のための時間差アルゴリズムを,離散環境,あるいは関数近似を伴う連続環境に対して形式的に導出する。
特に,有限分散推定器を連続環境においても提供し,目標状態に正確に到達する報酬は無限にスパースする。
後続状態はベルマン方程式以上のものを満たす: 後方のベルマン作用素とベルマン・ニュートン作用素は環境中の経路構成性を符号化する。
BN作用素は二階勾配降下法に似ており、より多くの観測値を得るときの値関数の真の更新を提供する。
表の場合と無限小の学習率では、通常のベルマン作用素と後方のベルマン作用素を混合することで漸近収束の固有値が向上し、BN作用素の漸近収束はTDよりも確率的に良い。
しかし、bn法はサンプリングノイズに対してより複雑でロバストではない。
最後に、後続状態のフォワードバックワード(fb)有限ランクパラメータ化は、分散の低減とsamplabilityの改善を享受し、値関数の直接モデルを提供し、長距離依存性に対応する不動点を完全に理解し、bn法を近似し、副産物として状態の2つの標準表現を提供する。
関連論文リスト
- Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
一般値関数近似を用いた分布強化学習における後悔の解析について述べる。
理論的な結果は,無限次元の戻り分布を有限個のモーメント関数で近似することが,統計情報をバイアスなく学習する唯一の方法であることを示している。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation [47.08004958269403]
オフ・プライシ・データにおいても,ブートストラップ値推定の収束条件が弱くなることを証明する。
計算結果をトラジェクトリによる学習に拡張し、小さな修正を施した全てのタスクに対して収束が達成可能であることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:36:16Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Reinforcement Learning in Linear MDPs: Constant Regret and
Representation Selection [136.4014229319618]
線形構造を持つ有限水平マルコフ決定過程(MDPs)における後悔最小化における状態-作用値関数の表現の役割について検討する。
まず,線形報酬関数を持つ任意のMDPにおいて,一貫した後悔を実現するために,Universally spaning optimal features (UNISOFT) と呼ばれる表現に必要条件を導出する。
論文 参考訳(メタデータ) (2021-10-27T22:07:08Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。