Fugu-MT 論文翻訳(概要): ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization

論文の概要: ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization

arxiv url: http://arxiv.org/abs/2410.13837v1
Date: Thu, 17 Oct 2024 17:55:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.100054
Title: ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization
Title（参考訳）: ORSO:オンラインリワード選択とポリシー最適化によるリワード設計の高速化
Authors: Chen Bo Calvin Zhang, Zhang-Wei Hong, Aldo Pacchiano, Pulkit Agrawal,
Abstract要約: Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。 ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
参考スコア（独自算出の注目度）: 41.074747242532695
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reward shaping is a critical component in reinforcement learning (RL), particularly for complex tasks where sparse rewards can hinder learning. While shaping rewards have been introduced to provide additional guidance, selecting effective shaping functions remains challenging and computationally expensive. This paper introduces Online Reward Selection and Policy Optimization (ORSO), a novel approach that frames shaping reward selection as an online model selection problem. ORSO employs principled exploration strategies to automatically identify promising shaping reward functions without human intervention, balancing exploration and exploitation with provable regret guarantees. We demonstrate ORSO's effectiveness across various continuous control tasks using the Isaac Gym simulator. Compared to traditional methods that fully evaluate each shaping reward function, ORSO significantly improves sample efficiency, reduces computational time, and consistently identifies high-quality reward functions that produce policies comparable to those generated by domain experts through hand-engineered rewards.
Abstract（参考訳）: リワードシェイピングは強化学習(RL)において重要な要素であり、特にスパース報酬が学習を妨げる複雑なタスクに対して重要である。新たなガイダンスを提供するためにシェーピング報酬が導入されたが、効果的なシェーピング関数の選択は困難であり、計算コストも高い。本稿では、オンラインモデル選択問題として、報酬選択を形作る新しいアプローチである、オンラインリワード選択とポリシー最適化(ORSO)を紹介する。 ORSOは、人間の介入なしに有望な形状の報酬関数を自動的に識別し、探索と悪用と証明可能な後悔の保証とをバランスさせる、原則化された探索戦略を採用している。我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。整形報酬関数を十分に評価する従来の手法と比較して、ORSOはサンプル効率を大幅に改善し、計算時間を短縮し、手作業による報酬を通じてドメインの専門家が生成したものと同等のポリシーを生成する高品質な報酬関数を一貫して識別する。

関連論文リスト

Reward-Conditioned Reinforcement Learning [56.417273471201845]
Reward-Conditioned Reinforcement Learning (RCRL) は、報酬仕様のファミリーを最適化するために単一のエージェントを訓練するフレームワークである。 RCRLは、報酬パラメータ化のエージェントを条件付け、共有されたリプレイデータから複数の報酬目標を学習する。その結果、RCRLはシングルタスクトレーニングの単純さを犠牲にすることなく、堅牢でステアブルなポリシを学習するためのスケーラブルなメカニズムを提供することを示した。
論文参考訳（メタデータ） (2026-03-05T11:29:17Z)
Process Reinforcement through Implicit Rewards [95.7442934212076]
複雑なプロセス報酬は、大きな言語モデル(LLM)の推論時間スケーリングにおいて、スパースな結果レベルの報酬よりも効果的な選択肢であることが証明されている。ディエンス報酬は、その微粒な報酬が結果報酬の固有の問題に対処する可能性があるため、LLMの強化学習(RL)に魅力的な選択を与える。これは主に、高品質なプロセスラベルの収集が違法に高価であるオンラインのトレーニングプロセス報酬モデル(PRM)の課題に起因する可能性がある。提案するPRIMEは,ポリシロールアウトと結果ラベルのみを用いて,インプットプロセス報酬によるオンラインPRM更新を可能にする。
論文参考訳（メタデータ） (2025-02-03T15:43:48Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Benchmarking Potential Based Rewards for Learning Humanoid Locomotion [10.406358397515838]
十分に設計されたシェーピング報酬は、学習を著しく速くする可能性がある。理論的には、PBRS(英語版)は最適政策に影響を与えることなく学習プロセスを導くのに役立つ。本稿では,ヒューマノイドロボットのPBRSによる標準形状のベンチマークを行う。
論文参考訳（メタデータ） (2023-07-19T17:12:28Z)
Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文参考訳（メタデータ） (2023-02-03T11:39:50Z)
Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文参考訳（メタデータ） (2023-01-26T01:06:46Z)
Unpacking Reward Shaping: Understanding the Benefits of Reward Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文参考訳（メタデータ） (2022-10-18T04:21:25Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文参考訳（メタデータ） (2022-05-24T23:22:10Z)
Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文参考訳（メタデータ） (2022-01-25T03:48:00Z)
Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文参考訳（メタデータ） (2021-09-06T10:06:48Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Self-Supervised Online Reward Shaping in Sparse-Reward Environments [36.01839934355542]
自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
論文参考訳（メタデータ） (2021-03-08T03:28:04Z)
Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文参考訳（メタデータ） (2020-11-05T05:34:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。