論文の概要: Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies
- arxiv url: http://arxiv.org/abs/2206.05652v1
- Date: Sun, 12 Jun 2022 04:09:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 18:24:38.509120
- Title: Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies
- Title(参考訳): 重み付きポリシーによる連続制御ロボティクスにおけるスパース報酬の扱い
- Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Pratap Tokekar,
and Dinesh Manocha
- Abstract要約: 本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 64.2210390071609
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel Heavy-Tailed Stochastic Policy Gradient
(HT-PSG) algorithm to deal with the challenges of sparse rewards in continuous
control problems. Sparse reward is common in continuous control robotics tasks
such as manipulation and navigation, and makes the learning problem hard due to
non-trivial estimation of value functions over the state space. This demands
either reward shaping or expert demonstrations for the sparse reward
environment. However, obtaining high-quality demonstrations is quite expensive
and sometimes even impossible. We propose a heavy-tailed policy parametrization
along with a modified momentum-based policy gradient tracking scheme (HT-SPG)
to induce a stable exploratory behavior to the algorithm. The proposed
algorithm does not require access to expert demonstrations. We test the
performance of HT-SPG on various benchmark tasks of continuous control with
sparse rewards such as 1D Mario, Pathological Mountain Car, Sparse Pendulum in
OpenAI Gym, and Sparse MuJoCo environments (Hopper-v2). We show consistent
performance improvement across all tasks in terms of high average cumulative
reward. HT-SPG also demonstrates improved convergence speed with minimum
samples, thereby emphasizing the sample efficiency of our proposed algorithm.
- Abstract(参考訳): 本稿では,連続制御問題におけるスパース報酬の課題に対処するために,新しい重み付き確率的政策勾配(ht-psg)アルゴリズムを提案する。
スパース報酬は、操作やナビゲーションなどの連続制御ロボティクスタスクにおいて一般的であり、状態空間上の価値関数の非自明な推定のため、学習問題を難しくする。
この要求は、わずかな報酬環境に対して報酬を形作るか、専門家のデモンストレーションを要求する。
しかし、高品質なデモを得るのは非常に高価であり、時には不可能である。
本稿では,HT-SPGと併用した重み付きポリシーパラメータ化手法を提案し,アルゴリズムの安定な探索動作を導出する。
提案アルゴリズムは、専門家によるデモンストレーションへのアクセスを必要としない。
1D Mario, Pathological Mountain Car, Sparse Pendulum in OpenAI Gym, Sparse MuJoCo Environment (Hopper-v2) など, まばらな報酬を伴う連続制御のベンチマークタスクにおけるHT-SPGの性能を検証した。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
HT-SPGは最小サンプルで収束速度を向上し,提案アルゴリズムのサンプル効率を強調した。
関連論文リスト
- Trajectory-Oriented Policy Optimization with Sparse Rewards [2.9602904918952695]
本稿では,より高速で効率的なオンラインRLを実現するために,オフラインのデモトラジェクトリを利用する手法を提案する。
私たちの重要な洞察は、単なる模倣ではなく、オフラインのデモの軌跡をガイダンスとして扱うことです。
次に、この最適化問題をポリシー段階のアルゴリズムに合理化することができ、オフラインのデモンストレーションから得られる洞察によって形作られた報酬を統合する。
論文 参考訳(メタデータ) (2024-01-04T12:21:01Z) - Policy Optimization with Smooth Guidance Learned from State-Only Demonstrations [2.709826237514737]
報酬フィードバックの幅は、オンラインの深層強化学習において依然として難しい問題である。
Smooth Guidance (POSG) を用いたポリシー最適化手法を提案する。
4つのスパース・リワード環境におけるPOSGの制御性能と収束速度の顕著な優位性を示す。
論文 参考訳(メタデータ) (2023-12-30T07:41:45Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward
Model [24.030426634281643]
連続制御タスクでは、ガウス分布を用いた広く使われているポリシーは、環境の非効率な探索をもたらす。
本稿では,ポリシの表現性を高めるためにプッシュフォワードモデルを用いて,密度のないオフポリチックアルゴリズムGenerative Actor-Criticを提案する。
プッシュフォワードポリシには,マルチモーダリティなどの望ましい特徴があり,アルゴリズムの探索と性能を向上できることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:29:20Z) - Deep Reinforcement Learning for Haptic Shared Control in Unknown Tasks [1.0635248457021496]
Haptic Share Control (HSC) は遠隔操作システムにおける直接遠隔操作の代替である。
仮想誘導力の応用は、ユーザの制御労力を減少させ、様々なタスクの実行時間を改善する。
課題は、実行中のタスクに対して最適なガイド力を提供するためのコントローラの開発にある。
この研究は、支援を提供するための深い決定論的ポリシー勾配(DDPG)アルゴリズムとタスク検出を実行するための畳み込みニューラルネットワーク(CNN)に基づいてコントローラを設計することで、この問題に対処する。
論文 参考訳(メタデータ) (2021-01-15T17:27:38Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Zeroth-order Deterministic Policy Gradient [116.87117204825105]
ゼロ階決定主義政策グラディエント(ZDPG)を紹介する。
ZDPGは、$Q$関数の2点評価によりポリシー逆勾配を近似する。
ZDPGの新たな有限サンプル複雑性境界は、既存の結果を最大2桁改善する。
論文 参考訳(メタデータ) (2020-06-12T16:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。