論文の概要: Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions
- arxiv url: http://arxiv.org/abs/2410.16790v1
- Date: Tue, 22 Oct 2024 08:07:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:27:22.668901
- Title: Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions
- Title(参考訳): 複素逆関数のためのサンプル効率のよいカリキュラム強化学習
- Authors: Kilian Freitag, Kristian Ceder, Rita Laezza, Knut Åkesson, Morteza Haghir Chehreghani,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
- 参考スコア(独自算出の注目度): 5.78463306498655
- License:
- Abstract: Reinforcement learning (RL) shows promise in control problems, but its practical application is often hindered by the complexity arising from intricate reward functions with constraints. While the reward hypothesis suggests these competing demands can be encapsulated in a single scalar reward function, designing such functions remains challenging. Building on existing work, we start by formulating preferences over trajectories to derive a realistic reward function that balances goal achievement with constraint satisfaction in the application of mobile robotics with dynamic obstacles. To mitigate reward exploitation in such complex settings, we propose a novel two-stage reward curriculum combined with a flexible replay buffer that adaptively samples experiences. Our approach first learns on a subset of rewards before transitioning to the full reward, allowing the agent to learn trade-offs between objectives and constraints. After transitioning to a new stage, our method continues to make use of past experiences by updating their rewards for sample-efficient learning. We investigate the efficacy of our approach in robot navigation tasks and demonstrate superior performance compared to baselines in terms of true reward achievement and task completion, underlining its effectiveness.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
報酬仮説は、これらの競合する要求を単一のスカラー報酬関数にカプセル化できることを示しているが、そのような関数の設計は依然として困難である。
既存の作業に基づいて、ダイナミックな障害物を伴う移動ロボットの応用において、目標達成と制約満足度をバランスさせる現実的な報酬関数を導出するために、軌道よりも好みを定式化することから始める。
このような複雑な環境下での報酬の活用を緩和するために、フレキシブルなリプレイバッファと、経験を適応的にサンプリングする2段階の報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
新たな段階に移行した後も,サンプル効率の学習に対する報酬を更新し,過去の経験を引き続き活用する。
本稿では,ロボットナビゲーションタスクにおけるアプローチの有効性について検討し,その効果を基礎として,真の報奨達成とタスク完了の点において,ベースラインよりも優れた性能を示す。
関連論文リスト
- Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。
学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。
様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Stage-Wise Reward Shaping for Acrobatic Robots: A Constrained Multi-Objective Reinforcement Learning Approach [12.132416927711036]
本稿では,直感的戦略による報酬形成プロセスの簡略化を目的としたRL手法を提案する。
制約付き多目的RL(CMORL)フレームワークにおいて,複数の報酬関数とコスト関数を定義する。
逐次的な複雑な動きを含むタスクに対しては、タスクを異なるステージに分割し、各ステージに対する複数の報酬とコストを定義します。
論文 参考訳(メタデータ) (2024-09-24T05:25:24Z) - Constrained Reinforcement Learning with Smoothed Log Barrier Function [27.216122901635018]
CSAC-LB (Constrained Soft Actor-Critic with Log Barrier Function) と呼ばれる新しい制約付きRL法を提案する。
線形スムーズなログバリア関数を追加の安全評論家に適用することにより、事前トレーニングなしで競争性能を達成する。
CSAC-LBでは,様々な難易度を有する制約付き制御タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-21T16:02:52Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Self-Imitation Learning for Robot Tasks with Sparse and Delayed Rewards [1.2691047660244335]
SILCR(Constant Reward)を用いた自己刺激学習法を提案する。
提案手法では,各時点の即時報酬を最終報酬に応じて一定値で割り当てる。
我々は,MuJoCoシミュレーションにおける連続ロボット制御タスクにおいて,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-10-14T11:12:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。