Fugu-MT 論文翻訳(概要): Experimental Study on The Effect of Multi-step Deep Reinforcement Learning in POMDPs

論文の概要: Experimental Study on The Effect of Multi-step Deep Reinforcement Learning in POMDPs

arxiv url: http://arxiv.org/abs/2209.04999v2
Date: Wed, 15 Jan 2025 04:45:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-17 16:36:31.085721
Title: Experimental Study on The Effect of Multi-step Deep Reinforcement Learning in POMDPs
Title（参考訳）: 多段階深部強化学習の効果に関する実験的研究
Authors: Lingheng Meng, Rob Gorbet, Michael Burke, Dana Kulić,
Abstract要約: 本稿では, PPO, Twin Delayed Deep Deterministic Policy Gradient (TD3) と Soft Actor-Critic (SAC) の3つのDRLアルゴリズムについて考察する。 SACとTD3は一般的に、MPPとして表現できる幅広いタスクでPPOを上回っている。我々は、TD3とSACに複数ステップのブートストラップを組み込むことで、POMDP設定におけるロバスト性が向上することを示した。
参考スコア（独自算出の注目度）: 3.7186122930334724
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Deep Reinforcement Learning (DRL) has made tremendous advances in both simulated and real-world robot control tasks in recent years. This is particularly the case for tasks that can be carefully engineered with a full state representation, and which can then be formulated as a Markov Decision Process (MDP). However, applying DRL strategies designed for MDPs to novel robot control tasks can be challenging, because the available observations may be a partial representation of the state, resulting in a Partially Observable Markov Decision Process (POMDP). This paper considers three popular DRL algorithms, namely Proximal Policy Optimization (PPO), Twin Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC), invented for MDPs, and studies their performance in POMDP scenarios. While prior work has found that SAC and TD3 typically outperform PPO across a broad range of tasks that can be represented as MDPs, we show that this is not always the case, using three representative POMDP environments. Empirical studies show that this is related to multi-step bootstrapping, where multi-step immediate rewards, instead of one-step immediate reward, are used to calculate the target value estimation of an observation and action pair. We identify this by observing that the inclusion of multi-step bootstrapping in TD3 (MTD3) and SAC (MSAC) results in improved robustness in POMDP settings.
Abstract（参考訳）: 近年、Dep Reinforcement Learning(DRL)は、シミュレーションと現実世界の両方のロボット制御タスクにおいて大きな進歩を遂げている。これは特に、完全な状態表現で慎重に設計され、マルコフ決定プロセス(MDP)として定式化されるタスクのケースである。しかしながら、MDP用に設計されたDRL戦略を新しいロボット制御タスクに適用することは困難である。本稿では, PPO(Proximal Policy Optimization), Twin Delayed Deep Deterministic Policy Gradient(TD3), Soft Actor-Critic(SAC)の3つのDRLアルゴリズムについて考察する。従来の研究では、SACとTD3は一般的に、MPPとして表現できる幅広いタスクにおいてPPOよりも優れていることが分かってきたが、3つの代表的POMDP環境を使用して、必ずしもそうではないことを示す。実験的な研究によると、これは多段階のブートストラッピングに関連しており、1段階の即時報酬ではなく、複数段階の即時報酬を用いて観測と行動ペアの目標値の推定を行う。我々は,TD3(MTD3)とSAC(MSAC)にマルチステップブートストラップを組み込むことで,POMDP設定の堅牢性が向上することが確認された。

関連論文リスト

RLingua: Improving Reinforcement Learning Sample Efficiency in Robotic Manipulations With Large Language Models [16.963228633341792]
強化学習(Reinforcement Learning, RL)は、様々なタスクを解く能力を示したが、サンプル効率が低いことで悪名高い。 RLinguaは大規模言語モデル(LLM)の内部知識を活用でき、ロボット操作におけるRLの複雑さを軽減できるフレームワークである。
論文参考訳（メタデータ） (2024-03-11T04:13:26Z)
Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal Locomotion Control [106.32794844077534]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文参考訳（メタデータ） (2024-01-30T10:48:43Z)
Provable Benefits of Multi-task RL under Non-Markovian Decision Making Processes [56.714690083118406]
マルコフ決定過程 (MDP) 下でのマルチタスク強化学習 (RL) において, 共有潜在構造の存在は, シングルタスクRLと比較して, サンプル効率に有意な利益をもたらすことが示されている。このような利点が、部分的に観測可能なMDP(POMDP)やより一般的な予測状態表現(PSR)といった、より一般的なシーケンシャルな意思決定問題にまで拡張できるかどうかを検討する。提案手法は,全てのPSRに対してほぼ最適ポリシーを求めるための,証明可能なアルゴリズム UMT-PSR を提案し,PSR の合同モデルクラスが有するマルチタスク学習の利点が示されることを示す。
論文参考訳（メタデータ） (2023-10-20T14:50:28Z)
Reaching the Limit in Autonomous Racing: Optimal Control versus Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文参考訳（メタデータ） (2023-10-17T02:40:27Z)
The Impact of Task Underspecification in Evaluating Deep Reinforcement Learning [1.4711121887106535]
深層強化学習法(DRL)の評価は、この分野の科学的進歩の不可欠な部分である。本稿では,MDPのパラメータ化ファミリーを検討するためにDRLの評価を増強する。 MDPファミリーの評価は,どの手法を最先端とみなすべきかという疑念を招き,比較的異なる手法の相対的なランク付けをしばしば得ることを示す。
論文参考訳（メタデータ） (2022-10-16T18:51:55Z)
Optimality Guarantees for Particle Belief Approximation of POMDPs [55.83001584645448]
部分的に観測可能なマルコフ決定プロセス(POMDP)は、現実の意思決定と制御の問題に対する柔軟な表現を提供する。 POMDPは、特に状態と観測空間が連続的またはハイブリッドである場合、解決するのが非常に難しい。本稿では,これらのアルゴリズムが使用する粒子フィルタリング手法の近似誤差を特徴付ける理論を提案する。
論文参考訳（メタデータ） (2022-10-10T21:11:55Z)
Abstract Demonstrations and Adaptive Exploration for Efficient and Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。 A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。 A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文参考訳（メタデータ） (2022-07-19T12:56:41Z)
Semi-Markov Offline Reinforcement Learning for Healthcare [57.15307499843254]
本稿では,SDQN,SDDQN,SBCQという3つのオフラインRLアルゴリズムを紹介する。変動時間環境において,これらのアルゴリズムのみが最適ポリシーを学習できることを実験的に実証した。我々は,脳卒中予防のためのウォーファリン投与に関連する実世界のオフラインデータセットに,我々の新しいアルゴリズムを適用した。
論文参考訳（メタデータ） (2022-03-17T14:51:21Z)
Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文参考訳（メタデータ） (2021-12-31T09:50:46Z)
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文参考訳（メタデータ） (2021-10-28T17:59:30Z)
URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。 URLBは2つのフェーズで構成されている。評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文参考訳（メタデータ） (2021-10-28T15:07:01Z)
Recurrent Off-policy Baselines for Memory-based Continuous Control [1.0965065178451106]
環境が部分的に観測可能(PO)である場合、深層強化学習(RL)エージェントは、制御戦略に加えて、履歴全体の適切な時間的表現を学習する必要がある。モデルフリー画像ベースRLの最近の成功に触発されて,歴史ベースRLのモデルフリーベースラインが欠如していることに気付いた。本研究ではDDPG,TD3,SAC(RDPG,RTD3,RSAC)のバージョンを実装し,短期および長期のPOドメインで評価し,鍵となる設計選択について検討する。
論文参考訳（メタデータ） (2021-10-25T04:08:57Z)
Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文参考訳（メタデータ） (2021-07-09T04:24:40Z)
Memory-based Deep Reinforcement Learning for POMDP [7.137228786549488]
長期記憶に基づく双発遅延深度決定政策グラデーション(LSTM-TD3) その結果, 部分観測可能なMDPに対処する上で, メモリコンポーネントの顕著な利点が示された。
論文参考訳（メタデータ） (2021-02-24T15:25:13Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)
How to Train Your Robot with Deep Reinforcement Learning; Lessons We've Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。深部RLにおける一般的な課題と,それらの課題について論じる。また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文参考訳（メタデータ） (2021-02-04T22:09:28Z)
Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning Agents via Neural Architecture Search [14.292072505007974]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文参考訳（メタデータ） (2020-12-24T04:07:36Z)
Learning Robust State Abstractions for Hidden-Parameter Block MDPs [55.31018404591743]
我々は、ブロックMDPにインスパイアされた堅牢な状態抽象化を実現するために、HiP-MDP設定からの共通構造の概念を活用する。マルチタスク強化学習 (MTRL) とメタ強化学習 (Meta-RL) の両方のための新しいフレームワークのインスタンス化を導出する。
論文参考訳（メタデータ） (2020-07-14T17:25:27Z)
Smooth Exploration for Robotic Reinforcement Learning [11.215352918313577]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界との対話からスキルを学ぶことを可能にする。実際には、Deep RLで使用される非構造的なステップベースの探索は、実際のロボットにジャーキーな動きパターンをもたらす。本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。
論文参考訳（メタデータ） (2020-05-12T12:28:25Z)
Robust Deep Reinforcement Learning against Adversarial Perturbations on State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文参考訳（メタデータ） (2020-03-19T17:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。