論文の概要: Self-Supervised Online Reward Shaping in Sparse-Reward Environments
- arxiv url: http://arxiv.org/abs/2103.04529v1
- Date: Mon, 8 Mar 2021 03:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-09 15:13:15.653094
- Title: Self-Supervised Online Reward Shaping in Sparse-Reward Environments
- Title(参考訳): スパースリワード環境における自己監督型オンラインリワードシェイピング
- Authors: Farzan Memarian, Wonjoon Goo, Rudolf Lioutikov, Ufuk Topcu, and Scott
Niekum
- Abstract要約: 自己監督型オンライン報酬形成を行う新しい強化学習フレームワークを提案する。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
いくつかのスパースワード環境における実験結果は、提案アルゴリズムが最先端のベースラインよりもはるかにサンプル効率が高いことを示している。
- 参考スコア(独自算出の注目度): 36.01839934355542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel reinforcement learning framework that performs
self-supervised online reward shaping, yielding faster, sample efficient
performance in sparse reward environments. The proposed framework alternates
between updating a policy and inferring a reward function. While the policy
update is done with the inferred, potentially dense reward function, the
original sparse reward is used to provide a self-supervisory signal for the
reward update by serving as an ordering over the observed trajectories. The
proposed framework is based on the theory that altering the reward function
does not affect the optimal policy of the original MDP as long as we maintain
certain relations between the altered and the original reward. We name the
proposed framework \textit{ClAssification-based REward Shaping} (CaReS), since
we learn the altered reward in a self-supervised manner using classifier based
reward inference. Experimental results on several sparse-reward environments
demonstrate that the proposed algorithm is not only significantly more sample
efficient than the state-of-the-art baseline, but also achieves a similar
sample efficiency to MDPs that use hand-designed dense reward functions.
- Abstract(参考訳): 自己監督型のオンライン報酬形成を行い、スパースな報酬環境において、より高速でサンプル効率の高いパフォーマンスを得られる新しい強化学習フレームワークを提案します。
提案するフレームワークは、ポリシーの更新と報酬関数の推測を交互に行う。
ポリシー更新は推定され、潜在的に濃密な報酬機能で実行されるが、元のスパース報酬は、観察された軌道上の順序として機能することにより、報酬更新の自己スーパーバイザリー信号を提供するために使用される。
提案手法は,変更した報酬と元の報酬との間に一定の関係を維持する限り,報酬関数の変更は元のmdpの最適方針に影響を与えないという理論に基づいている。
そこで我々は,分類器に基づく報酬推論を用いて,変化した報酬を自己管理的に学習するため,提案するフレームワークをCaReS(textit{ClAssification-based Reward Shaping})と命名した。
いくつかのスパース・リワード環境における実験結果から,提案アルゴリズムは最先端のベースラインよりもサンプル効率が高いだけでなく,手書きの高次報酬関数を用いたMDPに類似したサンプル効率が得られることが示された。
関連論文リスト
- ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。
ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。
我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - Reward Collapse in Aligning Large Language Models [64.98482888193267]
著者らは,ランキングに基づくアプローチがテキストの報酬分布をもたらす経験的観察である「テクストトレワード崩壊現象」について検討した。
実験結果から,提案手法により,報酬モデルのトレーニングにおいて,報酬の崩壊が著しく軽減されることが示唆された。
論文 参考訳(メタデータ) (2023-05-28T02:12:00Z) - Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning [4.969254618158096]
本研究では、報酬関数(REED)の符号化環境ダイナミクスにより、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数を劇的に減らすことを示す。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
論文 参考訳(メタデータ) (2022-11-12T00:34:41Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Generative Augmented Flow Networks [88.50647244459009]
GFlowNetsに中間報酬を組み込むためにGAFlowNets(Generative Augmented Flow Networks)を提案する。
GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善することができる。
論文 参考訳(メタデータ) (2022-10-07T03:33:56Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z) - DORB: Dynamically Optimizing Multiple Rewards with Bandits [101.68525259222164]
政策に基づく強化学習は、言語生成タスクにおいて、微分不可能な評価指標を最適化するための有望なアプローチであることが証明されている。
We use the Exp3 algorithm for bandit and formulate two approach for bandit rewards: (1) Single Multi-reward Bandit (SM-Bandit), (2) Hierarchical Multi-reward Bandit (HM-Bandit)
我々は,2つの重要なNLGタスクにおいて,様々な自動計測と人的評価を通じて,我々のアプローチの有効性を実証的に示す。
論文 参考訳(メタデータ) (2020-11-15T21:57:47Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。