Fugu-MT 論文翻訳(概要): Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient

論文の概要: Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient

arxiv url: http://arxiv.org/abs/2010.14771v3
Date: Mon, 7 Jun 2021 19:10:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-02 11:21:48.212971
Title: Batch Reinforcement Learning with a Nonparametric Off-Policy Policy Gradient
Title（参考訳）: 非パラメトリックオフポリシー勾配を用いたバッチ強化学習
Authors: Samuele Tosatto, Jo\~ao Carvalho, Jan Peters
Abstract要約: オフライン強化学習は、より良いデータ効率を約束する。現在の非政治政策勾配法は、高いバイアスまたは高い分散に悩まされ、しばしば信頼できない見積もりを提供する。閉形式で解ける非パラメトリックベルマン方程式を提案する。
参考スコア（独自算出の注目度）: 34.16700176918835
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Off-policy Reinforcement Learning (RL) holds the promise of better data efficiency as it allows sample reuse and potentially enables safe interaction with the environment. Current off-policy policy gradient methods either suffer from high bias or high variance, delivering often unreliable estimates. The price of inefficiency becomes evident in real-world scenarios such as interaction-driven robot learning, where the success of RL has been rather limited, and a very high sample cost hinders straightforward application. In this paper, we propose a nonparametric Bellman equation, which can be solved in closed form. The solution is differentiable w.r.t the policy parameters and gives access to an estimation of the policy gradient. In this way, we avoid the high variance of importance sampling approaches, and the high bias of semi-gradient methods. We empirically analyze the quality of our gradient estimate against state-of-the-art methods, and show that it outperforms the baselines in terms of sample efficiency on classical control tasks.
Abstract（参考訳）: オフ・ポリティクス強化学習(RL)は、サンプル再利用を可能にし、環境との安全な相互作用を可能にするため、より良いデータ効率を約束する。現在のオフポリシ政策勾配法は、高いバイアスまたは高い分散に苦しめられ、しばしば信頼できない見積もりをもたらす。相互作用駆動型ロボット学習のような現実のシナリオでは、RLの成功がかなり制限されており、非常に高いサンプルコストが簡単な応用を妨げる。本稿では,閉形式で解くことができる非パラメトリックベルマン方程式を提案する。この解はポリシーパラメータを微分可能 w.r.t とし、ポリシー勾配の推定へのアクセスを与える。このようにして、重要サンプリング手法の高分散や半勾配手法の高バイアスを回避できる。本研究では, 従来の制御タスクのサンプル効率において, 従来手法と比較して, 勾配推定の精度を実証的に解析し, 基準値よりも優れていることを示す。

関連論文リスト

Relative Entropy Pathwise Policy Optimization [56.86405621176669]
そこで本研究では,Q値モデルをオンラインデータから純粋にトレーニング可能な,価値段階駆動型オンデマンドアルゴリズムの構築方法について述べる。本稿では,パスワイズポリシー勾配のサンプル効率と,標準的なオンライン学習の単純さと最小限のメモリフットプリントを組み合わせた,効率的なオンライン学習アルゴリズムであるRelative Entropy Pathwise Policy Optimization (REPPO)を提案する。
論文参考訳（メタデータ） (2025-07-15T06:24:07Z)
Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文参考訳（メタデータ） (2024-05-09T09:08:09Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Actor-Critic Reinforcement Learning with Phased Actor [10.577516871906816]
本稿では,政策勾配推定を改善するために,PAAC法における新しい段階的アクターを提案する。 PAACはアクターアップデートで$Q$とTDエラーの両方を処理している。その結果,PAACは総コスト,学習ばらつき,堅牢性,学習速度,成功率などによって,大幅な性能向上をもたらすことがわかった。
論文参考訳（メタデータ） (2024-04-18T01:27:31Z)
Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文参考訳（メタデータ） (2023-10-10T02:45:50Z)
Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文参考訳（メタデータ） (2023-03-11T11:42:26Z)
Policy Gradient for Rectangular Robust Markov Decision Processes [62.397882389472564]
我々は,長方形ロバストなマルコフ決定過程(MDP)を効率的に解く政策ベース手法であるロバストなポリシー勾配(RPG)を導入する。結果のRPGは、非ロバストな等価値と同じ時間のデータから推定することができる。
論文参考訳（メタデータ） (2023-01-31T12:40:50Z)
Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文参考訳（メタデータ） (2020-02-21T19:20:57Z)
Efficient Policy Learning from Surrogate-Loss Classification Reductions [65.91730154730905]
本稿では,政策学習におけるサロゲート-ロス分類の重み付けによる推定問題について考察する。適切な仕様の仮定の下では、重み付けされた分類定式化はポリシーパラメーターに対して効率的でないことが示される。本稿では,ポリシーパラメータに対して効率的なモーメントの一般化手法に基づく推定手法を提案する。
論文参考訳（メタデータ） (2020-02-12T18:54:41Z)
A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文参考訳（メタデータ） (2020-01-08T10:13:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。