論文の概要: A Unified Off-Policy Evaluation Approach for General Value Function
- arxiv url: http://arxiv.org/abs/2107.02711v1
- Date: Tue, 6 Jul 2021 16:20:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 17:46:22.753337
- Title: A Unified Off-Policy Evaluation Approach for General Value Function
- Title(参考訳): 一般価値関数のための統一オフポリシー評価手法
- Authors: Tengyu Xu, Zhuoran Yang, Zhaoran Wang, Yingbin Liang
- Abstract要約: 一般価値関数(GVF)は、強化学習(RL)における予測的知識と振り返り的知識の両方を表現する強力なツールである。
本稿では,GVF評価のためのGenTDと呼ばれる新しいアルゴリズムを提案する。
我々は、GenTDが単一の標準スカラー値関数と同じくらい効率的に複数の相互関連多次元GVFを学習することを示す。
- 参考スコア(独自算出の注目度): 131.45028999325797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General Value Function (GVF) is a powerful tool to represent both the {\em
predictive} and {\em retrospective} knowledge in reinforcement learning (RL).
In practice, often multiple interrelated GVFs need to be evaluated jointly with
pre-collected off-policy samples. In the literature, the gradient temporal
difference (GTD) learning method has been adopted to evaluate GVFs in the
off-policy setting, but such an approach may suffer from a large estimation
error even if the function approximation class is sufficiently expressive.
Moreover, none of the previous work have formally established the convergence
guarantee to the ground truth GVFs under the function approximation settings.
In this paper, we address both issues through the lens of a class of GVFs with
causal filtering, which cover a wide range of RL applications such as reward
variance, value gradient, cost in anomaly detection, stationary distribution
gradient, etc. We propose a new algorithm called GenTD for off-policy GVFs
evaluation and show that GenTD learns multiple interrelated multi-dimensional
GVFs as efficiently as a single canonical scalar value function. We further
show that unlike GTD, the learned GVFs by GenTD are guaranteed to converge to
the ground truth GVFs as long as the function approximation power is
sufficiently large. To our best knowledge, GenTD is the first off-policy GVF
evaluation algorithm that has global optimality guarantee.
- Abstract(参考訳): general value function (gvf) は強化学習(rl)における「em予測」と「emふりかえり」の知識の両方を表現する強力なツールである。
実際には、しばしば複数の相互関連GVFを、事前に収集されたオフ・ポリケーシのサンプルと共同で評価する必要がある。
文献では,gvfsの評価には勾配時間差(gtd)学習法が採用されているが,関数近似クラスが十分に表現可能であったとしても,推定誤差が大きい可能性がある。
さらに、以前の研究は、関数近似設定の下で基底真理 GVF への収束保証を正式に確立していない。
本稿では, 報酬分散, 値勾配, 異常検出のコスト, 定常分布勾配など, 幅広いrl応用をカバーする, 因果フィルタリング付きgvfsのクラスのレンズを通して, 両問題に対処する。
我々は,GVFの非政治的評価のためのGenTDと呼ばれる新しいアルゴリズムを提案し,GenTDが単一正準スカラー値関数と同じくらい効率的に複数の多次元GVFを学習することを示す。
さらに、GTDとは異なり、GenTDによる学習されたGVFは、関数近似力が十分に大きい限り、基底真理GVFに収束することが保証されていることを示す。
我々の知る限り、GenTDはグローバルな最適性を保証する最初の非政治GVF評価アルゴリズムである。
関連論文リスト
- Adaptive Exploration for Data-Efficient General Value Function Evaluations [40.156127789708265]
一般値関数(GVF)は強化学習における予測的知識を表す。
GVFExplorerは、複数のGVFを並列に評価するためのデータを効率的に収集する単一の行動ポリシーを学ぶ。
論文 参考訳(メタデータ) (2024-05-13T15:24:27Z) - Greedy based Value Representation for Optimal Coordination in
Multi-agent Reinforcement Learning [64.05646120624287]
LVDとMVDの結合Q値関数を導出する。
最適な整合性を確保するために、最適なノードは独自のSTNである必要がある。
本手法は,様々なベンチマーク実験において,最先端のベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-22T08:14:50Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - A general sample complexity analysis of vanilla policy gradient [101.16957584135767]
政策勾配(PG)は、最も一般的な強化学習(RL)問題の1つである。
PG軌道の「バニラ」理論的理解は、RL問題を解く最も一般的な方法の1つである。
論文 参考訳(メタデータ) (2021-07-23T19:38:17Z) - Affordance as general value function: A computational model [8.34897697233928]
一般値関数(英: General value function, GVFs)は、環境における特定のポリシーに従うエージェントの結果の長期的な予測的要約である。
本研究は,GVFが直接知覚の形式としてアベイランス予測を実現していることを示す。
我々は,GVFが実世界のアプリケーションにおいて,学費を学べる適切なフレームワークを提供することを示した。
論文 参考訳(メタデータ) (2020-10-27T13:42:58Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Conditional Deep Gaussian Processes: multi-fidelity kernel learning [6.599344783327053]
固定された低忠実度データにより遅延GPを直接支持する条件付きDGPモデルを提案する。
合成および高次元データを用いた実験は、他の多次元回帰法と同等の性能を示す。
低忠実度データと階層DGP構造により、実効カーネルは真関数の帰納バイアスを符号化する。
論文 参考訳(メタデータ) (2020-02-07T14:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。