論文の概要: Recurrent Model-Free RL is a Strong Baseline for Many POMDPs
- arxiv url: http://arxiv.org/abs/2110.05038v1
- Date: Mon, 11 Oct 2021 07:09:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 05:35:40.804564
- Title: Recurrent Model-Free RL is a Strong Baseline for Many POMDPs
- Title(参考訳): 繰り返しモデルフリーRLは多くのPOMDPの強力なベースラインである
- Authors: Tianwei Ni, Benjamin Eysenbach, Ruslan Salakhutdinov
- Abstract要約: メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
- 参考スコア(独自算出の注目度): 73.39666827525782
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many problems in RL, such as meta RL, robust RL, and generalization in RL,
can be cast as POMDPs. In theory, simply augmenting model-free RL with memory,
such as recurrent neural networks, provides a general approach to solving all
types of POMDPs. However, prior work has found that such recurrent model-free
RL methods tend to perform worse than more specialized algorithms that are
designed for specific types of POMDPs. This paper revisits this claim. We find
that careful architecture and hyperparameter decisions yield a recurrent
model-free implementation that performs on par with (and occasionally
substantially better than) more sophisticated recent techniques in their
respective domains. We also release a simple and efficient implementation of
recurrent model-free RL for future work to use as a baseline for POMDPs. Code
is available at https://github.com/twni2016/pomdp-baselines
- Abstract(参考訳): メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
しかし、先行研究により、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりも性能が悪いことが判明した。
この論文はこの主張を再考する。
注意深いアーキテクチャとハイパーパラメータの決定は、各ドメインのより洗練された最新技術と同等の(そして時としてかなり優れている)反復的なモデルなしの実装をもたらす。
また,POMDPのベースラインとして使用するために,リカレントモデルフリーRLの簡易かつ効率的な実装もリリースしている。
コードはhttps://github.com/twni2016/pomdp-baselinesで入手できる。
関連論文リスト
- Revisiting Recurrent Reinforcement Learning with Memory Monoids [11.86945491923298]
RLでは、RNNやトランスフォーマーなどのメモリモデルは、トラジェクトリを潜在マルコフ状態にマッピングすることで、部分的に観測可能なマルコフ決定プロセス(POMDP)に対処する。
これらのモデルの更新がモノイドであることに気付き、新しいメモリモノイドフレームワークを正式に定義しました。
本稿では, RLにおける再帰損失関数の実装を簡略化し, サンプル効率を改善し, 戻り値を増加させる手法を提案する。
論文 参考訳(メタデータ) (2024-02-15T11:56:53Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [13.61250415783271]
従来のRLとメタRLを組み合わせた原則的ハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、長い水平およびアウト・オブ・ディストリビューションのタスクに対してより累積的な報酬を得ることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。