論文の概要: Partial Observability during DRL for Robot Control
- arxiv url: http://arxiv.org/abs/2209.04999v1
- Date: Mon, 12 Sep 2022 03:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:43:10.597566
- Title: Partial Observability during DRL for Robot Control
- Title(参考訳): ロボット制御のためのDRL中の部分観測可能性
- Authors: Lingheng Meng, Rob Gorbet, Dana Kuli\'c
- Abstract要約: ロボット制御タスクにDeep Reinforcement Learningを適用する際の潜在的な障害源としての部分観測可能性について検討する。
種々の部分観測条件下での3つの共通DRLアルゴリズム(TD3, SAC, PPO)の性能を比較した。
TD3 と SAC は局所的最適および低性能な PPO において容易に立ち往生することを発見した。
- 参考スコア(独自算出の注目度): 6.181642248900806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Reinforcement Learning (DRL) has made tremendous advances in both
simulated and real-world robot control tasks in recent years. Nevertheless,
applying DRL to novel robot control tasks is still challenging, especially when
researchers have to design the action and observation space and the reward
function. In this paper, we investigate partial observability as a potential
failure source of applying DRL to robot control tasks, which can occur when
researchers are not confident whether the observation space fully represents
the underlying state. We compare the performance of three common DRL
algorithms, TD3, SAC and PPO under various partial observability conditions. We
find that TD3 and SAC become easily stuck in local optima and underperform PPO.
We propose multi-step versions of the vanilla TD3 and SAC to improve robustness
to partial observability based on one-step bootstrapping.
- Abstract(参考訳): 近年、Dep Reinforcement Learning(DRL)は、シミュレーションと現実世界の両方のロボット制御タスクにおいて大きな進歩を遂げている。
しかし、新しいロボット制御タスクにDRLを適用することは、特に研究者がアクションと観察空間と報酬関数を設計しなければならない場合、依然として難しい。
本稿では,ロボット制御タスクにDRLを適用する際の潜在的な障害源としての部分観測可能性について検討する。
種々の部分観測条件下での3つの共通DRLアルゴリズム(TD3, SAC, PPO)の性能を比較した。
TD3 と SAC は局所的最適および低性能な PPO において容易に立ち往生する。
本稿では,ワンステップブートストラップに基づく部分可観測性に対するロバスト性を改善するため,バニラtd3とsacの多段バージョンを提案する。
関連論文リスト
- Provable Benefits of Multi-task RL under Non-Markovian Decision Making
Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。
このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。
提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文 参考訳(メタデータ) (2023-10-20T14:50:28Z) - The Impact of Task Underspecification in Evaluating Deep Reinforcement
Learning [1.4711121887106535]
深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。
本稿では,MDPのパラメータ化ファミリーを検討するためにDRLの評価を増強する。
MDPファミリーの評価は,どの手法を最先端とみなすべきかという疑念を招き,比較的異なる手法の相対的なランク付けをしばしば得ることを示す。
論文 参考訳(メタデータ) (2022-10-16T18:51:55Z) - Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。
POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。
本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文 参考訳(メタデータ) (2022-10-10T21:11:55Z) - Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。
変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。
我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-03-17T14:51:21Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Memory-based Deep Reinforcement Learning for POMDP [7.137228786549488]
長期記憶に基づく双発遅延深度決定政策グラデーション(LSTM-TD3)
その結果, 部分観測可能なMDPに対処する上で, メモリコンポーネントの顕著な利点が示された。
論文 参考訳(メタデータ) (2021-02-24T15:25:13Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。
マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文 参考訳(メタデータ) (2020-07-14T17:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。