論文の概要: Curriculum Reinforcement Learning for Complex Reward Functions
- arxiv url: http://arxiv.org/abs/2410.16790v2
- Date: Mon, 10 Feb 2025 10:42:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:24:01.360782
- Title: Curriculum Reinforcement Learning for Complex Reward Functions
- Title(参考訳): 複雑なリワード関数のためのカリキュラム強化学習
- Authors: Kilian Freitag, Kristian Ceder, Rita Laezza, Knut Åkesson, Morteza Haghir Chehreghani,
- Abstract要約: 本稿では,まず簡単な報奨関数を最大化し,次に完全かつ複雑な報奨に遷移する2段階の報奨カリキュラムを提案する。
我々はDeepMindコントロールスイート上で,報酬定義に付加的な制約項を含むように修正した手法を評価する。
以上の結果から, 複雑な報酬を伴う環境において, 効率的かつ安定したRLに対する2段階報酬キュリキュラの可能性が示された。
- 参考スコア(独自算出の注目度): 5.78463306498655
- License:
- Abstract: Reinforcement learning (RL) has emerged as a powerful tool for tackling control problems, but its practical application is often hindered by the complexity arising from intricate reward functions with multiple terms. The reward hypothesis posits that any objective can be encapsulated in a scalar reward function, yet balancing individual, potentially adversarial, reward terms without exploitation remains challenging. To overcome the limitations of traditional RL methods, which often require precise balancing of competing reward terms, we propose a two-stage reward curriculum that first maximizes a simple reward function and then transitions to the full, complex reward. We provide a method based on how well an actor fits a critic to automatically determine the transition point between the two stages. Additionally, we introduce a flexible replay buffer that enables efficient phase transfer by reusing samples from one stage in the next. We evaluate our method on the DeepMind control suite, modified to include an additional constraint term in the reward definitions. We further evaluate our method in a mobile robot scenario with even more competing reward terms. In both settings, our two-stage reward curriculum achieves a substantial improvement in performance compared to a baseline trained without curriculum. Instead of exploiting the constraint term in the reward, it is able to learn policies that balance task completion and constraint satisfaction. Our results demonstrate the potential of two-stage reward curricula for efficient and stable RL in environments with complex rewards, paving the way for more robust and adaptable robotic systems in real-world applications.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、制御問題に対処するための強力なツールとして登場したが、その実践的応用は、複雑な報酬関数から生じる複雑さによってしばしば妨げられている。
報酬仮説は、いかなる目的もスカラーの報酬関数にカプセル化できるが、個人的、潜在的に敵対的、報酬の項を搾取なしでバランスをとることは難しいと仮定している。
競合する報酬項の正確なバランスを必要とする従来のRL手法の限界を克服するために、まず単純な報酬関数を最大化し、次に完全かつ複雑な報酬に遷移する2段階の報酬カリキュラムを提案する。
アクターが批評家にどの程度合うかに基づいて、この2つのステージ間の遷移点を自動的に決定する方法を提供する。
また, フレキシブルなリプレイバッファを導入し, 次のステージからサンプルを再利用することで, 効率的な位相転送を実現する。
我々はDeepMindコントロールスイート上で,報酬定義に付加的な制約項を含むように修正した手法を評価する。
さらに,より競合する報酬条件を持つ移動ロボットのシナリオにおいて,本手法を更に評価する。
いずれの設定においても,2段階の報奨カリキュラムは,カリキュラムなしで訓練されたベースラインと比較して,大幅な性能向上を実現している。
報酬の制約項を利用する代わりに、タスクの完了と制約満足度をバランスさせるポリシーを学ぶことができます。
以上の結果から,より堅牢で適応性の高いロボットシステムを実現するために,複雑な報酬を持つ環境において,効率よく安定したRLを実現するための2段階報酬キュリキュラの可能性が示された。
関連論文リスト
- Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。
学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。
様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Stage-Wise Reward Shaping for Acrobatic Robots: A Constrained Multi-Objective Reinforcement Learning Approach [12.132416927711036]
本稿では,直感的戦略による報酬形成プロセスの簡略化を目的としたRL手法を提案する。
制約付き多目的RL(CMORL)フレームワークにおいて,複数の報酬関数とコスト関数を定義する。
逐次的な複雑な動きを含むタスクに対しては、タスクを異なるステージに分割し、各ステージに対する複数の報酬とコストを定義します。
論文 参考訳(メタデータ) (2024-09-24T05:25:24Z) - Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。
線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。
CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T16:02:52Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards [1.2691047660244335]
SILCR(Constant Reward)を用いた自己刺激学習法を提案する。
提案手法では,各時点の即時報酬を最終報酬に応じて一定値で割り当てる。
我々は,MuJoCoシミュレーションにおける連続ロボット制御タスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-14T11:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。