論文の概要: Partial Observability during DRL for Robot Control
- arxiv url: http://arxiv.org/abs/2209.04999v1
- Date: Mon, 12 Sep 2022 03:12:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 13:43:10.597566
- Title: Partial Observability during DRL for Robot Control
- Title(参考訳): ロボット制御のためのDRL中の部分観測可能性
- Authors: Lingheng Meng, Rob Gorbet, Dana Kuli\'c
- Abstract要約: ロボット制御タスクにDeep Reinforcement Learningを適用する際の潜在的な障害源としての部分観測可能性について検討する。
種々の部分観測条件下での3つの共通DRLアルゴリズム(TD3, SAC, PPO)の性能を比較した。
TD3 と SAC は局所的最適および低性能な PPO において容易に立ち往生することを発見した。
- 参考スコア(独自算出の注目度): 6.181642248900806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Reinforcement Learning (DRL) has made tremendous advances in both
simulated and real-world robot control tasks in recent years. Nevertheless,
applying DRL to novel robot control tasks is still challenging, especially when
researchers have to design the action and observation space and the reward
function. In this paper, we investigate partial observability as a potential
failure source of applying DRL to robot control tasks, which can occur when
researchers are not confident whether the observation space fully represents
the underlying state. We compare the performance of three common DRL
algorithms, TD3, SAC and PPO under various partial observability conditions. We
find that TD3 and SAC become easily stuck in local optima and underperform PPO.
We propose multi-step versions of the vanilla TD3 and SAC to improve robustness
to partial observability based on one-step bootstrapping.
- Abstract(参考訳): 近年、Dep Reinforcement Learning(DRL)は、シミュレーションと現実世界の両方のロボット制御タスクにおいて大きな進歩を遂げている。
しかし、新しいロボット制御タスクにDRLを適用することは、特に研究者がアクションと観察空間と報酬関数を設計しなければならない場合、依然として難しい。
本稿では,ロボット制御タスクにDRLを適用する際の潜在的な障害源としての部分観測可能性について検討する。
種々の部分観測条件下での3つの共通DRLアルゴリズム(TD3, SAC, PPO)の性能を比較した。
TD3 と SAC は局所的最適および低性能な PPO において容易に立ち往生する。
本稿では,ワンステップブートストラップに基づく部分可観測性に対するロバスト性を改善するため,バニラtd3とsacの多段バージョンを提案する。
関連論文リスト
- Reinforcement Learning for Versatile, Dynamic, and Robust Bipedal
Locomotion Control [112.66677641636299]
本稿では,二足歩行ロボットのための動的移動制御系を構築するために,深層強化学習を用いた研究について述べる。
本研究では、周期歩行やランニングから周期ジャンプや立位に至るまで、様々な動的二足歩行技術に使用できる汎用的な制御ソリューションを開発する。
この研究は、二足歩行ロボットの俊敏性の限界を、現実世界での広範な実験を通じて押し上げる。
論文 参考訳(メタデータ) (2024-01-30T10:48:43Z) - Reaching the Limit in Autonomous Racing: Optimal Control versus
Reinforcement Learning [66.10854214036605]
ロボット工学における中心的な問題は、アジャイルなモバイルロボットの制御システムをどうやって設計するかである。
本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。
その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。
論文 参考訳(メタデータ) (2023-10-17T02:40:27Z) - Abstract Demonstrations and Adaptive Exploration for Efficient and
Stable Multi-step Sparse Reward Reinforcement Learning [44.968170318777105]
本稿では、人間の体験にインスパイアされた2つのコンポーネント、抽象的なデモンストレーションと適応的な探索を統合したDRL探査手法A2を提案する。
A2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。
A2は、一般的なDRLアルゴリズムがこれらの環境でより効率的に安定して学習できることを示す。
論文 参考訳(メタデータ) (2022-07-19T12:56:41Z) - Learning Controllable 3D Level Generators [3.95471659767555]
3DドメインMinecraftのためのPCGRLタスクをいくつか紹介する(Mojang Studios, 2009)。
これらのタスクは、ジャンプ、多次元運動、重力といった3D環境でよく見られる余裕を使って、RLベースのジェネレータに挑戦する。
エージェントにこれらのタスクを最適化させ、PCGRLにおける以前の研究の能力を探求する。
論文 参考訳(メタデータ) (2022-06-27T20:43:56Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - URLB: Unsupervised Reinforcement Learning Benchmark [82.36060735454647]
教師なし強化学習ベンチマーク(URLB)を紹介する。
URLBは2つのフェーズで構成されている。
評価のために3つのドメインから12の連続制御タスクを提供し、8つの主要な教師なしRLメソッドに対してオープンソースコードを提供する。
論文 参考訳(メタデータ) (2021-10-28T15:07:01Z) - Recurrent Off-policy Baselines for Memory-based Continuous Control [1.0965065178451106]
環境が部分的に観測可能(PO)である場合、深層強化学習(RL)エージェントは、制御戦略に加えて、履歴全体の適切な時間的表現を学習する必要がある。
モデルフリー画像ベースRLの最近の成功に触発されて,歴史ベースRLのモデルフリーベースラインが欠如していることに気付いた。
本研究ではDDPG,TD3,SAC(RDPG,RTD3,RSAC)のバージョンを実装し,短期および長期のPOドメインで評価し,鍵となる設計選択について検討する。
論文 参考訳(メタデータ) (2021-10-25T04:08:57Z) - How to Train Your Robot with Deep Reinforcement Learning; Lessons We've
Learned [111.06812202454364]
本稿では,ロボット深部RLのケーススタディをいくつか紹介する。
深部RLにおける一般的な課題と,それらの課題について論じる。
また、他の卓越した課題についても概説し、その多くが現実世界のロボティクスの設定に特有のものである。
論文 参考訳(メタデータ) (2021-02-04T22:09:28Z) - Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning
Agents via Neural Architecture Search [14.292072505007974]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。
我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。
そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文 参考訳(メタデータ) (2020-12-24T04:07:36Z) - Smooth Exploration for Robotic Reinforcement Learning [11.215352918313577]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界との対話からスキルを学ぶことを可能にする。
実際には、Deep RLで使用される非構造的なステップベースの探索は、実際のロボットにジャーキーな動きパターンをもたらす。
本稿では、状態依存探索(SDE)を現在のDeep RLアルゴリズムに適応させることにより、これらの問題に対処する。
論文 参考訳(メタデータ) (2020-05-12T12:28:25Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。