論文の概要: Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes
- arxiv url: http://arxiv.org/abs/2112.00882v1
- Date: Wed, 1 Dec 2021 23:15:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 07:07:08.126590
- Title: Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes
- Title(参考訳): ガウス過程のアンサンブルを用いたロバストかつ適応的な時間差学習
- Authors: Qin Lu and Georgios B. Giannakis
- Abstract要約: 本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
- 参考スコア(独自算出の注目度): 70.80716221080118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Value function approximation is a crucial module for policy evaluation in
reinforcement learning when the state space is large or continuous. The present
paper takes a generative perspective on policy evaluation via
temporal-difference (TD) learning, where a Gaussian process (GP) prior is
presumed on the sought value function, and instantaneous rewards are
probabilistically generated based on value function evaluations at two
consecutive states. Capitalizing on a random feature-based approximant of the
GP prior, an online scalable (OS) approach, termed {OS-GPTD}, is developed to
estimate the value function for a given policy by observing a sequence of
state-reward pairs. To benchmark the performance of OS-GPTD even in an
adversarial setting, where the modeling assumptions are violated, complementary
worst-case analyses are performed by upper-bounding the cumulative Bellman
error as well as the long-term reward prediction error, relative to their
counterparts from a fixed value function estimator with the entire state-reward
trajectory in hindsight. Moreover, to alleviate the limited expressiveness
associated with a single fixed kernel, a weighted ensemble (E) of GP priors is
employed to yield an alternative scheme, termed OS-EGPTD, that can jointly
infer the value function, and select interactively the EGP kernel on-the-fly.
Finally, performances of the novel OS-(E)GPTD schemes are evaluated on two
benchmark problems.
- Abstract(参考訳): 値関数近似は、状態空間が大きいか連続的である場合の強化学習におけるポリシー評価の重要なモジュールである。
本稿では,ガウス過程 (GP) を探索値関数に基づいて推定し, 2つの連続状態における値関数評価に基づいて即時報酬を確率的に生成する,時間差学習(TD)による政策評価の生成的視点を考察する。
gp pre のランダム特徴量に基づく近似値に乗じて,os-gptd と呼ばれるオンラインスケーラブルな (os) 手法を開発し,状態反転ペアのシーケンスを観察することにより,与えられたポリシーの価値関数を推定する。
OS-GPTDの性能を、モデリング前提に反する対向的な設定でもベンチマークするため、累積ベルマン誤差と長期報酬予測誤差とを、固定値関数推定器と、後向きのステートリワード軌道全体とから上界させて相補的な最悪の解析を行う。
さらに、単一の固定カーネルに関連する限定的な表現性を緩和するために、GP前の重み付きアンサンブル(E)を用いて、値関数を共同で推論し、EGPカーネルをオンザフライでインタラクティブに選択できるOS-EGPTDと呼ばれる代替スキームを生成する。
最後に,2つのベンチマーク問題に対して,os-(e)gptd方式の性能評価を行った。
関連論文リスト
- On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted
Iteration [39.250754806600135]
政策(PG)推定は、ターゲットポリシーのサンプル化が許されない場合、課題となる。
従来の非政治PG推定法は、しばしば大きなバイアスや指数関数的に大きなばらつきに悩まされる。
本稿では,FPG(Double Fitted PG Estimation)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-31T20:23:52Z) - Incremental Ensemble Gaussian Processes [53.3291389385672]
本稿では,EGPメタラーナーがGP学習者のインクリメンタルアンサンブル(IE-) GPフレームワークを提案し,それぞれが所定のカーネル辞書に属するユニークなカーネルを持つ。
各GP専門家は、ランダムな特徴ベースの近似を利用してオンライン予測とモデル更新を行い、そのスケーラビリティを生かし、EGPメタラーナーはデータ適応重みを生かし、熟練者ごとの予測を合成する。
新たなIE-GPは、EGPメタラーナーおよび各GP学習者内における構造化力学をモデル化することにより、時間変化関数に対応するように一般化される。
論文 参考訳(メタデータ) (2021-10-13T15:11:25Z) - A Unified Off-Policy Evaluation Approach for General Value Function [131.45028999325797]
一般価値関数(GVF)は、強化学習(RL)における予測的知識と振り返り的知識の両方を表現する強力なツールである。
本稿では,GVF評価のためのGenTDと呼ばれる新しいアルゴリズムを提案する。
我々は、GenTDが単一の標準スカラー値関数と同じくらい効率的に複数の相互関連多次元GVFを学習することを示す。
論文 参考訳(メタデータ) (2021-07-06T16:20:34Z) - Adversarial Robustness Guarantees for Gaussian Processes [22.403365399119107]
ガウス過程(GP)は、モデルの不確実性の原理的計算を可能にし、安全性に重要なアプリケーションに魅力的です。
境界付き摂動に対するモデル決定の不変性として定義されるGPの対向的堅牢性を分析するためのフレームワークを提案する。
我々は境界を洗練し、任意の$epsilon > 0$に対して、我々のアルゴリズムが有限個の反復で実際の値に$epsilon$-closeの値に収束することを保証していることを示す分岐とバウンドのスキームを開発する。
論文 参考訳(メタデータ) (2021-04-07T15:14:56Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Sequential Gaussian Processes for Online Learning of Nonstationary
Functions [9.997259201098602]
連続モンテカルロアルゴリズムは,オンラインの分散推論を可能としながら,非定常挙動を捉えたGPの無限混合に適合する。
提案手法は,時系列データにおける非定常性の存在下でのオンラインGP推定における最先端手法の性能を実証的に改善する。
論文 参考訳(メタデータ) (2019-05-24T02:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。