論文の概要: Muesli: Combining Improvements in Policy Optimization
- arxiv url: http://arxiv.org/abs/2104.06159v1
- Date: Tue, 13 Apr 2021 13:04:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 13:41:36.817389
- Title: Muesli: Combining Improvements in Policy Optimization
- Title(参考訳): muesli: ポリシー最適化の改善を組み合わせる
- Authors: Matteo Hessel, Ivo Danihelka, Fabio Viola, Arthur Guez, Simon Schmitt,
Laurent Sifre, Theophane Weber, David Silver, Hado van Hasselt
- Abstract要約: 規則化された政策最適化とモデル学習を補助的損失として組み合わせた新しい政策更新を提案する。
muesliはポリシネットワークと直接連携し、モデルフリーのベースラインと同等の計算速度を持つ。
- 参考スコア(独自算出の注目度): 39.89285651788727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel policy update that combines regularized policy
optimization with model learning as an auxiliary loss. The update (henceforth
Muesli) matches MuZero's state-of-the-art performance on Atari. Notably, Muesli
does so without using deep search: it acts directly with a policy network and
has computation speed comparable to model-free baselines. The Atari results are
complemented by extensive ablations, and by additional results on continuous
control and 9x9 Go.
- Abstract(参考訳): 本稿では,正規化政策最適化とモデル学習を補助的損失として組み合わせた新しいポリシー更新を提案する。
このアップデート(後のMuesli)は、MuZeroのAtariの最先端のパフォーマンスと一致する。
特にMuesliは、ディープサーチを使わずに、ポリシーネットワークで直接動作し、モデルフリーのベースラインに匹敵する計算速度を持つ。
atariの結果は、広範なアブレーションと、連続制御と9x9 goの追加の結果によって補完される。
関連論文リスト
- Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - IGN : Implicit Generative Networks [5.394800220750409]
我々は分布強化学習の最近の進歩を構築し、IQNに基づくモデルの最先端の分布変種を与える。
ALEにおける57のAtari 2600ゲームにおいて,ベースラインデータセットの性能向上を実証した。
また,このアルゴリズムを用いて,アタリゲームにおけるリスクに敏感なポリシーの訓練性能を,ポリシの最適化と評価で示す。
論文 参考訳(メタデータ) (2022-06-13T00:02:23Z) - Conservative Optimistic Policy Optimization via Multiple Importance
Sampling [0.0]
強化学習(Reinforcement Learning)は、AtariゲームやGoのゲームといった難題を解決することができる。
現代のディープRLアプローチは、まだ現実世界のアプリケーションでは広く使われていない。
論文 参考訳(メタデータ) (2021-03-04T20:23:38Z) - Policy Optimization as Online Learning with Mediator Feedback [46.845765216238135]
ポリシー最適化(PO)は、継続的制御タスクに対処するための広く使われているアプローチである。
本稿では、政策分野におけるオンライン学習問題としてpoを枠組みとする仲介者フィードバックの概念を紹介する。
本稿では,再帰的最小化のために,RIST (Multiple Importance Smpling with Truncation) を用いたアルゴリズム RANDomized-Exploration Policy Optimization を提案する。
論文 参考訳(メタデータ) (2020-12-15T11:34:29Z) - Provable Fictitious Play for General Mean-Field Games [111.44976345867005]
静止平均場ゲームのための強化学習アルゴリズムを提案する。
目標は、ナッシュ均衡を構成する平均場状態と定常政策のペアを学ぶことである。
論文 参考訳(メタデータ) (2020-10-08T18:46:48Z) - ClipUp: A Simple and Powerful Optimizer for Distribution-based Policy
Evolution [2.2731500742482305]
ClipUpは、その動作原理がシンプルで理解しやすいため、分散ベースのポリシー進化にとってより良い選択である、と私たちは主張する。
実験によると、ClipUpは単純さにもかかわらずAdamと競合しており、継続的な制御ベンチマークに挑戦する上で有効である。
論文 参考訳(メタデータ) (2020-08-05T22:46:23Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Non-Stationary Off-Policy Optimization [50.41335279896062]
本研究では,時間的空間的帯域幅の非政治最適化の新たな課題について検討する。
オフライン学習フェーズでは、ログ化されたデータをカテゴリの潜在状態に分割し、各状態に対してほぼ最適のサブポリシーを学ぶ。
オンラインデプロイメントの段階では、学習したサブ政治をそのパフォーマンスに基づいて順応的に切り替える。
論文 参考訳(メタデータ) (2020-06-15T09:16:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。