論文の概要: Recurrent Off-policy Baselines for Memory-based Continuous Control
- arxiv url: http://arxiv.org/abs/2110.12628v1
- Date: Mon, 25 Oct 2021 04:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 05:57:05.846272
- Title: Recurrent Off-policy Baselines for Memory-based Continuous Control
- Title(参考訳): メモリベース連続制御のためのリカレントオフポリシーベースライン
- Authors: Zhihan Yang, Hai Nguyen
- Abstract要約: 環境が部分的に観測可能(PO)である場合、深層強化学習(RL)エージェントは、制御戦略に加えて、履歴全体の適切な時間的表現を学習する必要がある。
モデルフリー画像ベースRLの最近の成功に触発されて,歴史ベースRLのモデルフリーベースラインが欠如していることに気付いた。
本研究ではDDPG,TD3,SAC(RDPG,RTD3,RSAC)のバージョンを実装し,短期および長期のPOドメインで評価し,鍵となる設計選択について検討する。
- 参考スコア(独自算出の注目度): 1.0965065178451106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When the environment is partially observable (PO), a deep reinforcement
learning (RL) agent must learn a suitable temporal representation of the entire
history in addition to a strategy to control. This problem is not novel, and
there have been model-free and model-based algorithms proposed for this
problem. However, inspired by recent success in model-free image-based RL, we
noticed the absence of a model-free baseline for history-based RL that (1) uses
full history and (2) incorporates recent advances in off-policy continuous
control. Therefore, we implement recurrent versions of DDPG, TD3, and SAC
(RDPG, RTD3, and RSAC) in this work, evaluate them on short-term and long-term
PO domains, and investigate key design choices. Our experiments show that RDPG
and RTD3 can surprisingly fail on some domains and that RSAC is the most
reliable, reaching near-optimal performance on nearly all domains. However, one
task that requires systematic exploration still proved to be difficult, even
for RSAC. These results show that model-free RL can learn good temporal
representation using only reward signals; the primary difficulty seems to be
computational cost and exploration. To facilitate future research, we have made
our PyTorch implementation publicly available at
https://github.com/zhihanyang2022/off-policy-continuous-control.
- Abstract(参考訳): 環境が部分的に観測可能(PO)である場合、深層強化学習(RL)エージェントは、制御戦略に加えて、履歴全体の適切な時間的表現を学習する必要がある。
この問題は新しいものではなく、モデルフリーおよびモデルベースアルゴリズムが提案されている。
しかし,モデルフリーイメージベースrlの最近の成功に触発されて,(1)フルヒストリを使用し,(2)オフポリシー連続制御の最近の進歩を取り入れた歴史ベースのrlのモデルフリーベースラインが存在しないことに気付いた。
そこで本研究では,DDPG,TD3,SAC(RDPG,RTD3,RSAC)の繰り返しバージョンを実装し,短期および長期のPOドメインで評価し,重要な設計選択について検討する。
実験の結果、RDPGとRTD3は驚くほどいくつかのドメインで失敗し、RSACが最も信頼性が高く、ほぼ全てのドメインでほぼ最適性能に達することがわかった。
しかし、体系的な探索を必要とするタスクは、rsacでも難しいことが判明した。
これらの結果から,モデルフリーRLは報酬信号のみを用いて適切な時間的表現を学習できることが示唆された。
今後の研究を促進するため、PyTorchの実装をhttps://github.com/zhihanyang2022/off-policy-continuous-controlで公開しました。
関連論文リスト
- Tangled Program Graphs as an alternative to DRL-based control algorithms for UAVs [0.43695508295565777]
ディープ強化学習(Dep reinforcement Learning, DRL)は、現在、自動運転車の制御において最も一般的なAIベースのアプローチである。
このアプローチには、高い計算要求と低い説明可能性という、いくつかの大きな欠点がある。
本稿では,DRLの代替としてTangled Program Graphs (TPG) を提案する。
論文 参考訳(メタデータ) (2024-11-08T14:20:29Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Pretty darn good control: when are approximate solutions better than
approximate models [0.0]
DRLアルゴリズムは,漁業における非線形3変数モデルにおける解の近似に成功していることを示す。
DRLで得られた政策は, 一定の死亡率の政策よりも収益性が高く, 持続性も高いことを示す。
論文 参考訳(メタデータ) (2023-08-25T19:58:17Z) - Partial Observability during DRL for Robot Control [6.181642248900806]
ロボット制御タスクにDeep Reinforcement Learningを適用する際の潜在的な障害源としての部分観測可能性について検討する。
種々の部分観測条件下での3つの共通DRLアルゴリズム(TD3, SAC, PPO)の性能を比較した。
TD3 と SAC は局所的最適および低性能な PPO において容易に立ち往生することを発見した。
論文 参考訳(メタデータ) (2022-09-12T03:12:04Z) - When does return-conditioned supervised learning work for offline
reinforcement learning? [51.899892382786526]
本研究では,リターン条件付き教師あり学習の能力と限界について検討する。
RCSLは、より伝統的な動的プログラミングベースのアルゴリズムに必要なものよりも強い仮定のセットで最適なポリシーを返す。
論文 参考訳(メタデータ) (2022-06-02T15:05:42Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2021-10-11T07:09:14Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Model-based Reinforcement Learning for Continuous Control with Posterior
Sampling [10.91557009257615]
連続状態空間における強化学習(PSRL)のためのモデルベース後方サンプリングについて検討した。
MPC-PSRLはモデルに基づく後部サンプリングアルゴリズムであり,行動選択のためのモデル予測制御を行う。
論文 参考訳(メタデータ) (2020-11-20T21:00:31Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。