論文の概要: ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization
- arxiv url: http://arxiv.org/abs/2410.13837v3
- Date: Tue, 25 Feb 2025 06:45:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:19:07.291544
- Title: ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization
- Title(参考訳): ORSO:オンラインリワード選択とポリシー最適化によるリワード設計の高速化
- Authors: Chen Bo Calvin Zhang, Zhang-Wei Hong, Aldo Pacchiano, Pulkit Agrawal,
- Abstract要約: Online Reward Selection and Policy Optimization (ORSO) は、オンラインモデル選択問題としてシェーピング報酬関数の選択を枠組みとした、新しいアプローチである。
ORSOは、整形報酬関数を評価するのに必要なデータ量を著しく削減し、データ効率と計算時間(最大8倍)の大幅な削減をもたらす。
ORSOは、従来の手法よりも50%以上優れた高品質の報酬関数を一貫して識別し、平均的にポリシーを、ドメインの専門家が手作業で設計した報酬関数を使って学んだものと同様に、パフォーマンスとして識別する。
- 参考スコア(独自算出の注目度): 41.074747242532695
- License:
- Abstract: Reward shaping is critical in reinforcement learning (RL), particularly for complex tasks where sparse rewards can hinder learning. However, choosing effective shaping rewards from a set of reward functions in a computationally efficient manner remains an open challenge. We propose Online Reward Selection and Policy Optimization (ORSO), a novel approach that frames the selection of shaping reward function as an online model selection problem. ORSO automatically identifies performant shaping reward functions without human intervention with provable regret guarantees. We demonstrate ORSO's effectiveness across various continuous control tasks. Compared to prior approaches, ORSO significantly reduces the amount of data required to evaluate a shaping reward function, resulting in superior data efficiency and a significant reduction in computational time (up to 8 times). ORSO consistently identifies high-quality reward functions outperforming prior methods by more than 50% and on average identifies policies as performant as the ones learned using manually engineered reward functions by domain experts.
- Abstract(参考訳): リワードシェイピングは強化学習(RL)において、特にスパース報酬が学習を妨げる複雑なタスクにおいて重要である。
しかし、計算的に効率的な方法で報酬関数の集合から効果的な形状の報酬を選択することは、未解決の課題である。
本稿では,オンラインモデル選択問題として,形状報酬関数の選択を枠組みとした新しい手法であるオンラインリワード選択とポリシー最適化(ORSO)を提案する。
ORSOは、人間の介入なしに、証明可能な後悔の保証なしに、成果物形成報酬関数を自動的に識別する。
ORSOの有効性を様々な連続制御タスクで実証する。
従来の手法と比較して、ORSOは整形報酬関数を評価するのに必要なデータ量を著しく削減し、データ効率と計算時間(最大8倍)の大幅な削減をもたらす。
ORSOは、従来の手法よりも50%以上優れた高品質の報酬関数を一貫して識別し、平均的にポリシーを、ドメインの専門家が手作業で設計した報酬関数を使って学んだものと同様に、パフォーマンスとして識別する。
関連論文リスト
- REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Benchmarking Potential Based Rewards for Learning Humanoid Locomotion [10.406358397515838]
十分に設計されたシェーピング報酬は、学習を著しく速くする可能性がある。
理論的には、PBRS(英語版)は最適政策に影響を与えることなく学習プロセスを導くのに役立つ。
本稿では,ヒューマノイドロボットのPBRSによる標準形状のベンチマークを行う。
論文 参考訳(メタデータ) (2023-07-19T17:12:28Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文 参考訳(メタデータ) (2021-03-08T03:28:04Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。