論文の概要: Conservative Optimistic Policy Optimization via Multiple Importance
Sampling
- arxiv url: http://arxiv.org/abs/2103.03307v1
- Date: Thu, 4 Mar 2021 20:23:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 05:37:27.253836
- Title: Conservative Optimistic Policy Optimization via Multiple Importance
Sampling
- Title(参考訳): 多重重要度サンプリングによる保守的最適政策最適化
- Authors: Achraf Azize and Othman Gaizi
- Abstract要約: 強化学習(Reinforcement Learning)は、AtariゲームやGoのゲームといった難題を解決することができる。
現代のディープRLアプローチは、まだ現実世界のアプリケーションでは広く使われていない。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has been able to solve hard problems such as
playing Atari games or solving the game of Go, with a unified approach. Yet
modern deep RL approaches are still not widely used in real-world applications.
One reason could be the lack of guarantees on the performance of the
intermediate executed policies, compared to an existing (already working)
baseline policy. In this paper, we propose an online model-free algorithm that
solves conservative exploration in the policy optimization problem. We show
that the regret of the proposed approach is bounded by
$\tilde{\mathcal{O}}(\sqrt{T})$ for both discrete and continuous parameter
spaces.
- Abstract(参考訳): 強化学習(rl)は,アタリゲームのプレイやgoのゲーム解決といった難しい問題を,統一的なアプローチで解決することができる。
しかし、現代のディープRLアプローチは、まだ現実世界のアプリケーションでは広く使われていない。
理由の1つは、既存の(すでに稼働している)ベースラインポリシーと比較して、中間実行ポリシーのパフォーマンスに対する保証がないことである。
本論文では,政策最適化問題における保守的な探索を解くオンラインモデルフリーアルゴリズムを提案する。
提案されたアプローチの後悔は、離散パラメータ空間と連続パラメータ空間の両方に対して $\tilde{\mathcal{O}}(\sqrt{T})$ で有界であることを示した。
- 全文 参考訳へのリンク
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切
の責任を負いません。