論文の概要: A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning
- arxiv url: http://arxiv.org/abs/2108.03222v1
- Date: Fri, 6 Aug 2021 17:47:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-09 14:22:59.950111
- Title: A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning
- Title(参考訳): ロボット政策学習におけるディセンスとスパース(視覚)リワードに関する研究
- Authors: Abdalkarim Mohtasib, Gerhard Neumann and Heriberto Cuayahuitl
- Abstract要約: 我々は,様々な種類の報酬の下で,複数の最先端の深層強化学習アルゴリズムの性能について検討した。
以上の結果から,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことが示唆された。
- 参考スコア(独自算出の注目度): 19.67628391301068
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep Reinforcement Learning (DRL) is a promising approach for teaching robots
new behaviour. However, one of its main limitations is the need for carefully
hand-coded reward signals by an expert. We argue that it is crucial to automate
the reward learning process so that new skills can be taught to robots by their
users. To address such automation, we consider task success classifiers using
visual observations to estimate the rewards in terms of task success. In this
work, we study the performance of multiple state-of-the-art deep reinforcement
learning algorithms under different types of reward: Dense, Sparse, Visual
Dense, and Visual Sparse rewards. Our experiments in various simulation tasks
(Pendulum, Reacher, Pusher, and Fetch Reach) show that while DRL agents can
learn successful behaviours using visual rewards when the goal targets are
distinguishable, their performance may decrease if the task goal is not clearly
visible. Our results also show that visual dense rewards are more successful
than visual sparse rewards and that there is no single best algorithm for all
tasks.
- Abstract(参考訳): 深層強化学習(DRL)はロボットに新しい行動を教えるための有望なアプローチである。
しかし、主な制限の1つは、専門家による手書き報酬信号の必要性である。
我々は,ロボットに新たなスキルを教えるために,報酬学習プロセスを自動化することが重要であると論じている。
このような自動化に対処するために,視覚的観察を用いてタスク成功度を推定するタスク成功分類器を検討する。
そこで本研究では,Dense, Sparse, Visual Dense, Visual Sparseの3種類の報奨によって,最先端の深層強化学習アルゴリズムの性能を評価する。
様々なシミュレーションタスク(Pendulum, Reacher, Pusher, Fetch Reach)における実験により,DRLエージェントは目標が識別可能であった場合の視覚的報酬を用いて,良好な動作を学習できるが,タスク目標が明確に見えない場合には,その性能が低下する可能性が示唆された。
また,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことを示す。
関連論文リスト
- On-Robot Reinforcement Learning with Goal-Contrastive Rewards [24.415607337006968]
強化学習(Reinforcement Learning, RL)は、ロボットが現実世界で自身の行動から学ぶことができる能力を持つ。
我々は、受動的ビデオデモでトレーニング可能な高密度報酬関数学習法であるGCR(Goal-intensiveive Rewards)を提案する。
GCRは2つの損失関数、成功軌跡を走行する際の報酬の増大をモデル化する暗黙値損失関数、そして成功軌跡と失敗軌跡を区別する目標コントラスト損失を組み合わせた。
論文 参考訳(メタデータ) (2024-10-25T22:11:54Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - DrS: Learning Reusable Dense Rewards for Multi-Stage Tasks [26.730889757506915]
我々は,多段階タスクにおける再利用可能な高密度報酬を学習するための新しいアプローチであるDrS(Dense reward Learning from Stages)を提案する。
タスクのステージ構造を活用することで、DrSはスパース報酬やデモから高品質の高密度報酬を学ぶ。
1000以上のタスク変異を持つ3つの物理的ロボット操作タスクファミリーの実験は、学習した報酬を目に見えないタスクで再利用できることを実証している。
論文 参考訳(メタデータ) (2024-04-25T17:28:33Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Reinforcement learning with Demonstrations from Mismatched Task under
Sparse Reward [7.51772160511614]
強化学習は、現実世界のロボティクス問題において、希少な報酬問題に悩まされることが多い。
先行研究はしばしば、学習エージェントと専門家が同じタスクを達成しようとしていると仮定する。
本稿では,対象タスクと専門家のタスクとが一致しない場合について考察する。
既存のLfD手法では、ミスマッチした新しいタスクにおける学習をスパース報酬で効果的に導くことはできない。
論文 参考訳(メタデータ) (2022-12-03T02:24:59Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。