論文の概要: Stable and Efficient Policy Evaluation
- arxiv url: http://arxiv.org/abs/2006.03978v2
- Date: Tue, 28 Dec 2021 03:15:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:14:41.237319
- Title: Stable and Efficient Policy Evaluation
- Title(参考訳): 安定かつ効率的な政策評価
- Authors: Daoming Lyu, Bo Liu, Matthieu Geist, Wen Dong, Saad Biaz, Qi Wang
- Abstract要約: 本稿では,斜め投影法を用いて,非政治安定かつ政治効率の良い新しいアルゴリズムを提案する。
様々な領域における実験結果から,提案手法の有効性が検証された。
- 参考スコア(独自算出の注目度): 31.04376768927044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy evaluation algorithms are essential to reinforcement learning due to
their ability to predict the performance of a policy. However, there are two
long-standing issues lying in this prediction problem that need to be tackled:
off-policy stability and on-policy efficiency. The conventional temporal
difference (TD) algorithm is known to perform very well in the on-policy
setting, yet is not off-policy stable. On the other hand, the gradient TD and
emphatic TD algorithms are off-policy stable, but are not on-policy efficient.
This paper introduces novel algorithms that are both off-policy stable and
on-policy efficient by using the oblique projection method. The empirical
experimental results on various domains validate the effectiveness of the
proposed approach.
- Abstract(参考訳): 政策評価アルゴリズムは、政策の性能を予測する能力のため、強化学習に不可欠である。
しかし、この予測問題には、オフポリシーの安定性とオンポリシーの効率という2つの長期的な問題が存在する。
従来の時間差(td)アルゴリズムは、オンポリシー設定において非常によく機能することが知られているが、オフポリシーは安定ではない。
一方、勾配tdと強調型tdアルゴリズムはオフポリシー安定であるが、オンポリシー効率は高くない。
本稿では, 斜め射影法を用いて, オフポリシー安定かつオンポリシー効率のよい新しいアルゴリズムを提案する。
様々な領域における実験結果から,提案手法の有効性が検証された。
関連論文リスト
- Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline [47.16115174891401]
本稿では,この分散問題を緩和するために,最適な行動依存ベースライン (Off-OAB) を用いた非政治政策勾配法を提案する。
提案手法は,OpenAI Gym と MuJoCo の6つの代表タスクに対して提案手法を評価する。
論文 参考訳(メタデータ) (2024-05-04T05:21:28Z) - Distillation Policy Optimization [5.439020425819001]
本研究では,評価と制御の両面において2つのデータソースを調和させるアクタ批判学習フレームワークを提案する。
このフレームワークには、統一利便推定器(UAE)と残留基線を含む分散還元機構が組み込まれている。
以上の結果から,オンラインアルゴリズムのサンプル効率は大幅に向上し,非政治的アプローチとのギャップを効果的に埋めることができた。
論文 参考訳(メタデータ) (2023-02-01T15:59:57Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Proximal Policy Optimization Smoothed Algorithm [0.0]
我々はPPOの変種であるPPOS(Proximal Policy Optimization Smooth Algorithm)を提案する。
その重要な改善点は、フラットなクリッピング法の代わりに機能的なクリッピング法を使用することである。
連続制御タスクにおける性能と安定性の両面で、最新のPPOのバリエーションよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-04T07:43:50Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。