論文の概要: Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
- arxiv url: http://arxiv.org/abs/2307.10142v1
- Date: Wed, 19 Jul 2023 17:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 13:07:26.305272
- Title: Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
- Title(参考訳): ヒューマノイドロコモーション学習のためのベンチマークポテンシャルに基づく報酬
- Authors: Se Hwan Jeon, Steve Heim, Charles Khazoom, Sangbae Kim
- Abstract要約: 十分に設計されたシェーピング報酬は、学習を著しく速くする可能性がある。
理論的には、PBRS(英語版)は最適政策に影響を与えることなく学習プロセスを導くのに役立つ。
本稿では,ヒューマノイドロボットのPBRSによる標準形状のベンチマークを行う。
- 参考スコア(独自算出の注目度): 10.406358397515838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The main challenge in developing effective reinforcement learning (RL)
pipelines is often the design and tuning the reward functions. Well-designed
shaping reward can lead to significantly faster learning. Naively formulated
rewards, however, can conflict with the desired behavior and result in
overfitting or even erratic performance if not properly tuned. In theory, the
broad class of potential based reward shaping (PBRS) can help guide the
learning process without affecting the optimal policy. Although several studies
have explored the use of potential based reward shaping to accelerate learning
convergence, most have been limited to grid-worlds and low-dimensional systems,
and RL in robotics has predominantly relied on standard forms of reward
shaping. In this paper, we benchmark standard forms of shaping with PBRS for a
humanoid robot. We find that in this high-dimensional system, PBRS has only
marginal benefits in convergence speed. However, the PBRS reward terms are
significantly more robust to scaling than typical reward shaping approaches,
and thus easier to tune.
- Abstract(参考訳): 効果的な強化学習(RL)パイプラインを開発する上での大きな課題は、しばしば報酬関数の設計とチューニングである。
うまく設計されたシェーピング報酬は、学習を著しく高速化する可能性がある。
しかし、仮に定式化された報酬は、望ましい行動と矛盾し、適切に調整しなければ過度に適合したり、過酷なパフォーマンスをもたらす。
理論上は、pbr(英: broad class of potential based reward shaping)は、最適方針に影響を与えることなく学習プロセスを導くのに役立つ。
いくつかの研究は、学習収束を加速するためにポテンシャルに基づく報酬形成の利用を探求しているが、その多くはグリッドワールドや低次元システムに限られており、ロボット工学におけるRLは主に標準的な報酬形成の形式に依存している。
本稿では,ヒューマノイドロボットのpbrによる形状形成の標準形式について検討する。
この高次元システムでは、PBRSは収束速度の限界的な利点しか持たない。
しかしながら、pbrs報酬項は、典型的な報酬形成アプローチよりもスケーリングにかなり頑健であり、チューニングが容易である。
関連論文リスト
- ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。
ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。
我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。