Fugu-MT 論文翻訳(概要): Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty

論文の概要: Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty

arxiv url: http://arxiv.org/abs/2003.02740v1
Date: Thu, 5 Mar 2020 16:10:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-26 06:32:36.042102
Title: Balance Between Efficient and Effective Learning: Dense2Sparse Reward Shaping for Robot Manipulation with Environment Uncertainty
Title（参考訳）: 効率的な学習と効果的な学習のバランス - dense2sparse reward shapingによる環境不確かさを伴うロボット操作
Authors: Yongle Luo, Kun Dong, Lili Zhao, Zhiyong Sun, Chao Zhou, Bo Song
Abstract要約: 本稿では,Dense2Sparseという,シンプルだが強力な報酬形成手法を提案する。これは、密集報酬の高速収束とスパース報酬のノイズ分離の利点を組み合わせて、学習効率と効果のバランスをとる。実験の結果,Dense2Sparse法は,スタンドアローンの高密度報酬やスパース報酬に比べて高い期待報酬を得た。
参考スコア（独自算出の注目度）: 14.178202899299267
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficient and effective learning is one of the ultimate goals of the deep reinforcement learning (DRL), although the compromise has been made in most of the time, especially for the application of robot manipulations. Learning is always expensive for robot manipulation tasks and the learning effectiveness could be affected by the system uncertainty. In order to solve above challenges, in this study, we proposed a simple but powerful reward shaping method, namely Dense2Sparse. It combines the advantage of fast convergence of dense reward and the noise isolation of the sparse reward, to achieve a balance between learning efficiency and effectiveness, which makes it suitable for robot manipulation tasks. We evaluated our Dense2Sparse method with a series of ablation experiments using the state representation model with system uncertainty. The experiment results show that the Dense2Sparse method obtained higher expected reward compared with the ones using standalone dense reward or sparse reward, and it also has a superior tolerance of system uncertainty.
Abstract（参考訳）: 効率的かつ効果的な学習は、深層強化学習(drl)の究極の目標の1つであるが、特にロボット操作の応用において、ほとんどの時間において妥協がなされている。学習は常にロボット操作作業に費用がかかり、学習の有効性はシステムの不確実性に影響される可能性がある。以上の課題を解決するため,本稿では,Dense2Sparseという,シンプルだが強力な報酬形成手法を提案する。これは、密集報酬の高速収束とスパース報酬のノイズ分離の利点を組み合わせることで、学習効率と効率性のバランスを達成し、ロボット操作タスクに適している。システム不確かさを伴う状態表現モデルを用いて, 一連のアブレーション実験を行い, dense2sparse法を評価した。実験の結果,drk2sparse法では,単独のdrk法やsparse法に比べて高い期待値が得られ,システム不確かさに対する耐性も高かった。

関連論文リスト

Sample Efficient Robot Learning in Supervised Effect Prediction Tasks [0.0]
本研究では,アクション・エフェクトの予測や,より一般的にはMUSELと呼ばれる世界モデル学習のためのロボットレグレッションタスクを目的とした新しいALフレームワークを開発する。 MUSELは、学習エンジンが与える総不確実性推定から、進捗と入力の多様性を利用してモデル不確かさを抽出し、それを用いて、最先端のアクション・エフェクト予測法を超えてサンプル効率を向上させることを目的としている。 MUSELの有効性は、ロボットのアクション・エフェクト・ラーニングで使用される標準的な方法と比較することによって実証される。
論文参考訳（メタデータ） (2024-12-03T09:48:28Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文参考訳（メタデータ） (2024-05-12T04:57:43Z)
Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文参考訳（メタデータ） (2024-04-03T13:28:52Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Tactile Active Inference Reinforcement Learning for Efficient Robotic Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文参考訳（メタデータ） (2023-11-19T10:19:22Z)
Planning for Sample Efficient Imitation Learning [52.44953015011569]
現在の模倣アルゴリズムは、高い性能と高環境サンプル効率を同時に達成するのに苦労している。本研究では,環境内サンプルの効率と性能を同時に達成できる計画型模倣学習手法であるEfficientImitateを提案する。実験結果から,EIは性能と試料効率の両立を図った。
論文参考訳（メタデータ） (2022-10-18T05:19:26Z)
Relay Hindsight Experience Replay: Continual Reinforcement Learning for Robot Manipulation Tasks with Sparse Rewards [26.998587654269873]
我々はRelay-HER(RHER)と呼ばれるモデルなし連続RLアルゴリズムを提案する。提案手法はまず,元の長軸タスクを段階的に複雑化した新しいサブタスクに分解,再配置する。実験の結果,5つのロボット操作作業において,バニラ-HERに比べてRHERのサンプル効率が有意に向上したことが示された。
論文参考訳（メタデータ） (2022-08-01T13:30:01Z)
Revisiting the Adversarial Robustness-Accuracy Tradeoff in Robot Learning [121.9708998627352]
近年の研究では、現実的なロボット学習の応用において、対人訓練の効果が公平なトレードオフを起こさないことが示されている。本研究は,ロボット学習におけるロバストネスと精度のトレードオフを再考し,最近のロバストトレーニング手法と理論の進歩により,現実のロボット応用に適した対人トレーニングが可能かどうかを解析する。
論文参考訳（メタデータ） (2022-04-15T08:12:15Z)
Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards [1.2691047660244335]
SILCR(Constant Reward)を用いた自己刺激学習法を提案する。提案手法では,各時点の即時報酬を最終報酬に応じて一定値で割り当てる。我々は,MuJoCoシミュレーションにおける連続ロボット制御タスクにおいて,本手法の有効性を実証する。
論文参考訳（メタデータ） (2020-10-14T11:12:07Z)
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文参考訳（メタデータ） (2020-04-01T15:57:15Z)
Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文参考訳（メタデータ） (2020-02-25T18:56:42Z)
Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチであるオープンAIロボット操作タスクにおけるSHERの評価を行った。
論文参考訳（メタデータ） (2020-02-06T03:57:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。