Fugu-MT 論文翻訳(概要): Benchmarking Potential Based Rewards for Learning Humanoid Locomotion

論文の概要: Benchmarking Potential Based Rewards for Learning Humanoid Locomotion

arxiv url: http://arxiv.org/abs/2307.10142v1
Date: Wed, 19 Jul 2023 17:12:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-20 13:07:26.305272
Title: Benchmarking Potential Based Rewards for Learning Humanoid Locomotion
Title（参考訳）: ヒューマノイドロコモーション学習のためのベンチマークポテンシャルに基づく報酬
Authors: Se Hwan Jeon, Steve Heim, Charles Khazoom, Sangbae Kim
Abstract要約: 十分に設計されたシェーピング報酬は、学習を著しく速くする可能性がある。理論的には、PBRS(英語版)は最適政策に影響を与えることなく学習プロセスを導くのに役立つ。本稿では,ヒューマノイドロボットのPBRSによる標準形状のベンチマークを行う。
参考スコア（独自算出の注目度）: 10.406358397515838
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The main challenge in developing effective reinforcement learning (RL) pipelines is often the design and tuning the reward functions. Well-designed shaping reward can lead to significantly faster learning. Naively formulated rewards, however, can conflict with the desired behavior and result in overfitting or even erratic performance if not properly tuned. In theory, the broad class of potential based reward shaping (PBRS) can help guide the learning process without affecting the optimal policy. Although several studies have explored the use of potential based reward shaping to accelerate learning convergence, most have been limited to grid-worlds and low-dimensional systems, and RL in robotics has predominantly relied on standard forms of reward shaping. In this paper, we benchmark standard forms of shaping with PBRS for a humanoid robot. We find that in this high-dimensional system, PBRS has only marginal benefits in convergence speed. However, the PBRS reward terms are significantly more robust to scaling than typical reward shaping approaches, and thus easier to tune.
Abstract（参考訳）: 効果的な強化学習(RL)パイプラインを開発する上での大きな課題は、しばしば報酬関数の設計とチューニングである。うまく設計されたシェーピング報酬は、学習を著しく高速化する可能性がある。しかし、仮に定式化された報酬は、望ましい行動と矛盾し、適切に調整しなければ過度に適合したり、過酷なパフォーマンスをもたらす。理論上は、pbr(英: broad class of potential based reward shaping)は、最適方針に影響を与えることなく学習プロセスを導くのに役立つ。いくつかの研究は、学習収束を加速するためにポテンシャルに基づく報酬形成の利用を探求しているが、その多くはグリッドワールドや低次元システムに限られており、ロボット工学におけるRLは主に標準的な報酬形成の形式に依存している。本稿では,ヒューマノイドロボットのpbrによる形状形成の標準形式について検討する。この高次元システムでは、PBRSは収束速度の限界的な利点しか持たない。しかしながら、pbrs報酬項は、典型的な報酬形成アプローチよりもスケーリングにかなり頑健であり、チューニングが容易である。

関連論文リスト

Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。 PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文参考訳（メタデータ） (2025-07-01T09:43:57Z)
Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文参考訳（メタデータ） (2025-05-26T07:01:06Z)
Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。本稿では,従来のオンライン学習と比較して,新しい伝達学習原理と証明可能な利点を持つ理論的アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-26T16:03:06Z)
ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。 ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
論文参考訳（メタデータ） (2024-10-17T17:55:05Z)
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文参考訳（メタデータ） (2024-04-30T18:58:33Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
DreamSmooth: Improving Model-based Reinforcement Learning via Reward Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2023-11-02T17:57:38Z)
Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文参考訳（メタデータ） (2023-09-06T00:44:29Z)
Handling Sparse Rewards in Reinforcement Learning Using Model Predictive Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文参考訳（メタデータ） (2022-10-04T11:06:38Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。