論文の概要: Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards
- arxiv url: http://arxiv.org/abs/2010.06962v3
- Date: Tue, 25 May 2021 13:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:34:21.783978
- Title: Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards
- Title(参考訳): 報酬のばらつきと遅れを伴うロボットタスクに対する自己模倣学習
- Authors: Zhixin Chen, Mengxiang Lin
- Abstract要約: SILCR(Constant Reward)を用いた自己刺激学習法を提案する。
提案手法では,各時点の即時報酬を最終報酬に応じて一定値で割り当てる。
我々は,MuJoCoシミュレーションにおける連続ロボット制御タスクにおいて,本手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 1.2691047660244335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of reinforcement learning (RL) in robotic control is still
limited in the environments with sparse and delayed rewards. In this paper, we
propose a practical self-imitation learning method named Self-Imitation
Learning with Constant Reward (SILCR). Instead of requiring hand-defined
immediate rewards from environments, our method assigns the immediate rewards
at each timestep with constant values according to their final episodic
rewards. In this way, even if the dense rewards from environments are
unavailable, every action taken by the agents would be guided properly. We
demonstrate the effectiveness of our method in some challenging continuous
robotics control tasks in MuJoCo simulation and the results show that our
method significantly outperforms the alternative methods in tasks with sparse
and delayed rewards. Even compared with alternatives with dense rewards
available, our method achieves competitive performance. The ablation
experiments also show the stability and reproducibility of our method.
- Abstract(参考訳): ロボット制御における強化学習(RL)の適用は、まだ疎度と遅延報酬のある環境において限られている。
本稿では,SILCR (Self-Imitation Learning with Constant Reward) という,実践的な自己模倣学習手法を提案する。
本手法では, 環境からの即時報酬を必要とせず, 最終報奨に応じて各時刻の即時報酬を一定値で割り当てる。
このように、たとえ環境からの密集した報酬が利用できないとしても、エージェントによって取られたすべてのアクションは適切にガイドされる。
提案手法は,ムジョコシミュレーションにおける連続ロボット制御課題において有効であることを実証し,提案手法がスパースや遅延報酬のタスクにおいて,代替法を大幅に上回ることを示した。
高い報酬を得られる代替品と比較しても,本手法は競争性能を達成する。
また, 本手法の安定性と再現性についても検討した。
関連論文リスト
- Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Learning Dense Reward with Temporal Variant Self-Supervision [5.131840233837565]
複雑な現実世界のロボットアプリケーションは、報酬として直接使用できる明示的で情報的な記述を欠いている。
従来、マルチモーダル観測から直接高密度報酬をアルゴリズムで抽出することが可能であった。
本稿では,より効率的で堅牢なサンプリングと学習手法を提案する。
論文 参考訳(メタデータ) (2022-05-20T20:30:57Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Balance Between Efficient and Effective Learning: Dense2Sparse Reward
Shaping for Robot Manipulation with Environment Uncertainty [14.178202899299267]
本稿では,Dense2Sparseという,シンプルだが強力な報酬形成手法を提案する。
これは、密集報酬の高速収束とスパース報酬のノイズ分離の利点を組み合わせて、学習効率と効果のバランスをとる。
実験の結果,Dense2Sparse法は,スタンドアローンの高密度報酬やスパース報酬に比べて高い期待報酬を得た。
論文 参考訳(メタデータ) (2020-03-05T16:10:15Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Scalable Multi-Task Imitation Learning with Autonomous Improvement [159.9406205002599]
我々は、自律的なデータ収集を通じて継続的に改善できる模倣学習システムを構築している。
我々は、ロボット自身の試行を、実際に試みたタスク以外のタスクのデモとして活用する。
従来の模倣学習のアプローチとは対照的に,本手法は,継続的改善のための疎い監視によるデータ収集を自律的に行うことができる。
論文 参考訳(メタデータ) (2020-02-25T18:56:42Z) - oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally
Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。
本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T22:21:41Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z) - Reinforcement Learning with Goal-Distance Gradient [1.370633147306388]
強化学習は通常、エージェントを訓練するために環境のフィードバック報酬を使用する。
現在の手法のほとんどは、スパース報酬や非リワード環境での優れたパフォーマンスを得るのが難しい。
一般環境におけるスパース報酬の問題を解決するために,環境報酬に依存しないモデルフリー手法を提案する。
論文 参考訳(メタデータ) (2020-01-01T02:37:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。