論文の概要: Memory-based Deep Reinforcement Learning for POMDP
- arxiv url: http://arxiv.org/abs/2102.12344v1
- Date: Wed, 24 Feb 2021 15:25:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:38:17.627301
- Title: Memory-based Deep Reinforcement Learning for POMDP
- Title(参考訳): 記憶に基づくPOMDPの深部強化学習
- Authors: Lingheng Meng, Rob Gorbet, Dana Kuli\'c
- Abstract要約: 長期記憶に基づく双発遅延深度決定政策グラデーション(LSTM-TD3)
その結果, 部分観測可能なMDPに対処する上で, メモリコンポーネントの顕著な利点が示された。
- 参考スコア(独自算出の注目度): 7.137228786549488
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A promising characteristic of Deep Reinforcement Learning (DRL) is its
capability to learn optimal policy in an end-to-end manner without relying on
feature engineering. However, most approaches assume a fully observable state
space, i.e. fully observable Markov Decision Process (MDP). In real-world
robotics, this assumption is unpractical, because of the sensor issues such as
sensors' capacity limitation and sensor noise, and the lack of knowledge about
if the observation design is complete or not. These scenarios lead to Partially
Observable MDP (POMDP) and need special treatment. In this paper, we propose
Long-Short-Term-Memory-based Twin Delayed Deep Deterministic Policy Gradient
(LSTM-TD3) by introducing a memory component to TD3, and compare its
performance with other DRL algorithms in both MDPs and POMDPs. Our results
demonstrate the significant advantages of the memory component in addressing
POMDPs, including the ability to handle missing and noisy observation data.
- Abstract(参考訳): 深層強化学習(DRL)の有望な特徴は、機能工学に頼ることなく、エンドツーエンドで最適な政策を学ぶ能力である。
しかし、ほとんどのアプローチは完全可観測状態空間、すなわち状態空間を仮定する。
完全に可観測マルコフ決定プロセス(MDP)。
実世界のロボット工学では、センサの容量制限やセンサノイズといったセンサの問題や、観測設計が完了したかどうかに関する知識の欠如などにより、この仮定は実践的ではない。
これらのシナリオは部分的オブザーバブルMDP(POMDP)につながり、特別な治療が必要です。
本稿では,TD3にメモリコンポーネントを導入して,長期記憶に基づくツイン遅延ディープ決定性ポリシグラデーショングラデーション(LSTM-TD3)を提案し,MDPとPOMDPの両方における他のDRLアルゴリズムとの比較を行った。
以上の結果から,POMDPに対処する上でのメモリコンポーネントの利点が示唆された。
関連論文リスト
- Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Depth-discriminative Metric Learning for Monocular 3D Object Detection [14.554132525651868]
本稿では,視覚的属性に関係なく,モデルが深度識別的特徴を抽出することを奨励する新しい計量学習手法を提案する。
本手法は, 各種ベースラインの性能を平均23.51%, 5.78%向上させる。
論文 参考訳(メタデータ) (2024-01-02T07:34:09Z) - R^3: On-device Real-Time Deep Reinforcement Learning for Autonomous
Robotics [9.2327813168753]
本稿では、デバイス上でのリアルタイムDRLトレーニングにおけるタイミング、メモリ、アルゴリズム性能を管理するための総合的なソリューションR3を提案する。
R3は、(i)動的バッチサイズを最適化するためのデッドライン駆動フィードバックループ、(ii)メモリフットプリントを削減し、より大きなリプレイバッファサイズを実現するための効率的なメモリ管理、(iii)ランタイム分析によってガイドされるランタイムコーディネータ、およびメモリリソース予約を調整するランタイムプロファイラを採用している。
論文 参考訳(メタデータ) (2023-08-29T05:48:28Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Deep Deterministic Uncertainty for Semantic Segmentation [97.89295891304394]
我々は、Deep Deterministic Uncertainity (DDU) をセマンティックセグメンテーションに拡張する。
DDU は MC Dropout と Deep Ensembles を高速化し,計算速度は大幅に向上した。
論文 参考訳(メタデータ) (2021-10-29T20:45:58Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - End-to-End Egospheric Spatial Memory [32.42361470456194]
Egospheric Spatial Memory (ESM) と呼ばれるパラメータフリーのモジュールを提案し、エージェントの周りの自我圏内のメモリをエンコードする。
ESMは模倣あるいは強化学習を通じてエンドツーエンドでトレーニングすることができる。
ScanNetデータセット上でのセマンティックセグメンテーションへの適用を示す。ESMは画像レベルとマップレベルの推論モダリティを自然に組み合わせている。
論文 参考訳(メタデータ) (2021-02-15T18:59:07Z) - DeepAveragers: Offline Reinforcement Learning by Solving Derived
Non-Parametric MDPs [47.73837217824527]
静的な経験データセットから得られる有限表現型MDPを最適に解くことに基づくオフライン強化学習(RL)へのアプローチについて検討する。
我々の主な貢献は、Deep Averagers with Costs MDP (DAC-MDP)を導入し、オフラインRLに対するソリューションを検討することである。
論文 参考訳(メタデータ) (2020-10-18T00:11:45Z) - Sample-Efficient Reinforcement Learning of Undercomplete POMDPs [91.40308354344505]
この研究は、これらの硬度障壁が、部分観測可能決定過程(POMDP)の豊かで興味深いサブクラスに対する効率的な強化学習を妨げないことを示している。
提案手法は, 観測回数が潜伏状態の数よりも大きく, 探索が学習に不可欠であり, 先行研究と区別できるような, エピソード有限不完全POMDPに対するサンプル効率アルゴリズムOOM-UCBを提案する。
論文 参考訳(メタデータ) (2020-06-22T17:58:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。