論文の概要: Deep Reinforcement Learning with Dynamic Optimism
- arxiv url: http://arxiv.org/abs/2102.03765v2
- Date: Tue, 9 Feb 2021 09:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-10 14:15:47.352454
- Title: Deep Reinforcement Learning with Dynamic Optimism
- Title(参考訳): 動的オプティミズムを用いた深層強化学習
- Authors: Ted Moskovitz, Jack Parker-Holder, Aldo Pacchiano, Michael Arbel
- Abstract要約: 最適な楽観主義の度合いは、タスクや学習過程によって異なることが示される。
この知見にインスパイアされた我々は、楽観的価値学習と悲観的価値学習を切り替える、新しいディープアクター批判アルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 29.806071693039655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, deep off-policy actor-critic algorithms have become a
dominant approach to reinforcement learning for continuous control. This comes
after a series of breakthroughs to address function approximation errors, which
previously led to poor performance. These insights encourage the use of
pessimistic value updates. However, this discourages exploration and runs
counter to theoretical support for the efficacy of optimism in the face of
uncertainty. So which approach is best? In this work, we show that the optimal
degree of optimism can vary both across tasks and over the course of learning.
Inspired by this insight, we introduce a novel deep actor-critic algorithm,
Dynamic Optimistic and Pessimistic Estimation (DOPE) to switch between
optimistic and pessimistic value learning online by formulating the selection
as a multi-arm bandit problem. We show in a series of challenging continuous
control tasks that DOPE outperforms existing state-of-the-art methods, which
rely on a fixed degree of optimism. Since our changes are simple to implement,
we believe these insights can be extended to a number of off-policy algorithms.
- Abstract(参考訳): 近年,連続制御のための強化学習において,深部オフポリシーのアクタ-クリティックアルゴリズムが主流となっている。
これは、関数近似エラーに対処するための一連のブレークスルーの後に発生し、以前はパフォーマンスが悪くなりました。
これらの洞察は悲観的な価値更新の使用を促進する。
しかし、これは探検を妨げ、不確実性に直面した楽観主義の有効性に対する理論的支持に逆らう。
どのアプローチが最善か?
本研究では,最適な楽観性の度合いが,課題や学習過程によって異なることを示す。
この洞察に触発され、我々は、マルチアームバンディット問題として選択を定式化することによって、オンライン楽観的および悲観的価値学習を切り替える新しいディープアクタークリティカルアルゴリズム、ダイナミックオプティミティと悲観的推定(DOPE)を導入しました。
DOPEは、一定の楽観性に依存する既存の最先端の方法よりも優れている一連の挑戦的な連続制御タスクを示します。
私たちの変更は実装が簡単なため、これらの洞察は多くのオフポリシーアルゴリズムに拡張できると考えています。
関連論文リスト
- Exploring Pessimism and Optimism Dynamics in Deep Reinforcement Learning [13.374594152438691]
政治的でないアクター批判的アルゴリズムは、継続的な制御タスクに対する深い強化学習の可能性を示している。
本稿では,アクターと批評家の双方に対して,悲観的・楽観的な程度を独立的に制御できる枠組みであるUtility Soft Actor-Critic(USAC)を紹介する。
USACは、政治以外のアクター批判的アルゴリズム内でバランスをとるための重要なステップである。
論文 参考訳(メタデータ) (2024-06-06T09:26:02Z) - Optimizing Pessimism in Dynamic Treatment Regimes: A Bayesian Learning
Approach [6.7826352751791985]
本稿では,オフライン環境における最適動的処理系のための,悲観的に基づく新しいベイズ学習法を提案する。
我々は悲観主義の原理をトンプソンサンプリングとベイズ機械学習と統合し、悲観主義の度合いを最適化する。
本研究では,高効率かつスケーラブルな変分推論に基づく計算アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-26T02:14:10Z) - Pessimistic Off-Policy Optimization for Learning to Rank [13.733459243449634]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Emphatic Algorithms for Deep Reinforcement Learning [43.17171330951343]
時間差学習アルゴリズムは関数近似とオフポリシーサンプリングを組み合わせると不安定になる。
強調時間差(ETD($lambda$)アルゴリズム)は、TD($lambda$)更新を適切に重み付けすることで線形の場合の収束を保証する。
本稿では,ETD($lambda$)をフォワードビュー・マルチステップ・リターンを用いた一般的な深層強化学習アルゴリズムに適用することにより,性能が低下することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:11:39Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Inverse Reinforcement Learning from a Gradient-based Learner [41.8663538249537]
逆強化学習は、専門家の報酬関数をデモンストレーションから推測する問題に対処する。
本稿では,エージェントが最適化した報酬関数を復元するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-15T16:41:00Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。