論文の概要: Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2307.10142v1
- Date: Wed, 19 Jul 2023 17:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:07:26.305272
- Title: Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
- Title(参考訳): ヒューマノイドロコモーション学習のためのベンチマークポテンシャルに基づく報酬
- Authors: Se Hwan Jeon, Steve Heim, Charles Khazoom, Sangbae Kim
- Abstract要約: 十分に設計されたシェーピング報酬は、学習を著しく速くする可能性がある。
理論的には、PBRS(英語版)は最適政策に影響を与えることなく学習プロセスを導くのに役立つ。
本稿では,ヒューマノイドロボットのPBRSによる標準形状のベンチマークを行う。
- 参考スコア(独自算出の注目度): 10.406358397515838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The main challenge in developing effective reinforcement learning (RL)
pipelines is often the design and tuning the reward functions. Well-designed
shaping reward can lead to significantly faster learning. Naively formulated
rewards, however, can conflict with the desired behavior and result in
overfitting or even erratic performance if not properly tuned. In theory, the
broad class of potential based reward shaping (PBRS) can help guide the
learning process without affecting the optimal policy. Although several studies
have explored the use of potential based reward shaping to accelerate learning
convergence, most have been limited to grid-worlds and low-dimensional systems,
and RL in robotics has predominantly relied on standard forms of reward
shaping. In this paper, we benchmark standard forms of shaping with PBRS for a
humanoid robot. We find that in this high-dimensional system, PBRS has only
marginal benefits in convergence speed. However, the PBRS reward terms are
significantly more robust to scaling than typical reward shaping approaches,
and thus easier to tune.
- Abstract(参考訳): 効果的な強化学習(RL)パイプラインを開発する上での大きな課題は、しばしば報酬関数の設計とチューニングである。
うまく設計されたシェーピング報酬は、学習を著しく高速化する可能性がある。
しかし、仮に定式化された報酬は、望ましい行動と矛盾し、適切に調整しなければ過度に適合したり、過酷なパフォーマンスをもたらす。
理論上は、pbr(英: broad class of potential based reward shaping)は、最適方針に影響を与えることなく学習プロセスを導くのに役立つ。
いくつかの研究は、学習収束を加速するためにポテンシャルに基づく報酬形成の利用を探求しているが、その多くはグリッドワールドや低次元システムに限られており、ロボット工学におけるRLは主に標準的な報酬形成の形式に依存している。
本稿では,ヒューマノイドロボットのpbrによる形状形成の標準形式について検討する。
この高次元システムでは、PBRSは収束速度の限界的な利点しか持たない。
しかしながら、pbrs報酬項は、典型的な報酬形成アプローチよりもスケーリングにかなり頑健であり、チューニングが容易である。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in
Reinforcement Learning from Human Feedback [61.54791065013767]
人間のフィードバック(RRLHF)からのロボット強化学習による報酬正規化のためのサンプル効率向上アルゴリズムREBELを提案する。
PEBBLEやPEBBLE+SURFのような最先端の手法と比較して,REBELは試料効率を最大70%向上し,十分な報酬率が得られることを示した。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Deep Reinforcement Learning from Hierarchical Weak Preference Feedback [141.40710994023124]
我々は,新しい実践的強化学習フレームワーク,HERONを提案する。
HERONは、与えられたランクによって誘導される階層的な決定木を用いて軌跡を比較する。
我々のフレームワークは、様々な困難なタスクでハイパフォーマンスエージェントを訓練できるだけでなく、サンプル効率の改善や堅牢性といった付加的なメリットも提供できることがわかりました。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。