論文の概要: Balance Between Efficient and Effective Learning: Dense2Sparse Reward
Shaping for Robot Manipulation with Environment Uncertainty
- arxiv url: http://arxiv.org/abs/2003.02740v1
- Date: Thu, 5 Mar 2020 16:10:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 06:32:36.042102
- Title: Balance Between Efficient and Effective Learning: Dense2Sparse Reward
Shaping for Robot Manipulation with Environment Uncertainty
- Title(参考訳): 効率的な学習と効果的な学習のバランス - dense2sparse reward shapingによる環境不確かさを伴うロボット操作
- Authors: Yongle Luo, Kun Dong, Lili Zhao, Zhiyong Sun, Chao Zhou, Bo Song
- Abstract要約: 本稿では,Dense2Sparseという,シンプルだが強力な報酬形成手法を提案する。
これは、密集報酬の高速収束とスパース報酬のノイズ分離の利点を組み合わせて、学習効率と効果のバランスをとる。
実験の結果,Dense2Sparse法は,スタンドアローンの高密度報酬やスパース報酬に比べて高い期待報酬を得た。
- 参考スコア(独自算出の注目度): 14.178202899299267
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient and effective learning is one of the ultimate goals of the deep
reinforcement learning (DRL), although the compromise has been made in most of
the time, especially for the application of robot manipulations. Learning is
always expensive for robot manipulation tasks and the learning effectiveness
could be affected by the system uncertainty. In order to solve above
challenges, in this study, we proposed a simple but powerful reward shaping
method, namely Dense2Sparse. It combines the advantage of fast convergence of
dense reward and the noise isolation of the sparse reward, to achieve a balance
between learning efficiency and effectiveness, which makes it suitable for
robot manipulation tasks. We evaluated our Dense2Sparse method with a series of
ablation experiments using the state representation model with system
uncertainty. The experiment results show that the Dense2Sparse method obtained
higher expected reward compared with the ones using standalone dense reward or
sparse reward, and it also has a superior tolerance of system uncertainty.
- Abstract(参考訳): 効率的かつ効果的な学習は、深層強化学習(drl)の究極の目標の1つであるが、特にロボット操作の応用において、ほとんどの時間において妥協がなされている。
学習は常にロボット操作作業に費用がかかり、学習の有効性はシステムの不確実性に影響される可能性がある。
以上の課題を解決するため,本稿では,Dense2Sparseという,シンプルだが強力な報酬形成手法を提案する。
これは、密集報酬の高速収束とスパース報酬のノイズ分離の利点を組み合わせることで、学習効率と効率性のバランスを達成し、ロボット操作タスクに適している。
システム不確かさを伴う状態表現モデルを用いて, 一連のアブレーション実験を行い, dense2sparse法を評価した。
実験の結果,drk2sparse法では,単独のdrk法やsparse法に比べて高い期待値が得られ,システム不確かさに対する耐性も高かった。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [61.14928315004026]
オフ・ポリティクス強化学習は、インタラクティブな模倣学習よりも近いが、潜在的にさらに実践的な仮定の下で、パフォーマンスを向上させることができる。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Primitive Skill-based Robot Learning from Human Evaluative Feedback [28.046559859978597]
強化学習アルゴリズムは、現実世界環境における長期ロボット操作タスクを扱う際に、課題に直面している。
本稿では,人間フィードバックからの強化学習(RLHF)と原始的スキルベース強化学習の2つのアプローチを活用する新しいフレームワークSEEDを提案する。
以上の結果から,SEEDはサンプル効率と安全性において最先端のRLアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T20:48:30Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。
本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。
実験結果から,EIは性能と試料効率の両立を図った。
論文 参考訳(メタデータ) (2022-10-18T05:19:26Z) - Relay Hindsight Experience Replay: Continual Reinforcement Learning for
Robot Manipulation Tasks with Sparse Rewards [26.998587654269873]
我々はRelay-HER(RHER)と呼ばれるモデルなし連続RLアルゴリズムを提案する。
提案手法はまず,元の長軸タスクを段階的に複雑化した新しいサブタスクに分解,再配置する。
実験の結果,5つのロボット操作作業において,バニラ-HERに比べてRHERのサンプル効率が有意に向上したことが示された。
論文 参考訳(メタデータ) (2022-08-01T13:30:01Z) - Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot
Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。
本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文 参考訳(メタデータ) (2022-04-15T08:12:15Z) - Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards [1.2691047660244335]
SILCR(Constant Reward)を用いた自己刺激学習法を提案する。
提案手法では,各時点の即時報酬を最終報酬に応じて一定値で割り当てる。
我々は,MuJoCoシミュレーションにおける連続ロボット制御タスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-14T11:12:07Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。