論文の概要: Utilizing Prior Solutions for Reward Shaping and Composition in
Entropy-Regularized Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.01174v1
- Date: Fri, 2 Dec 2022 13:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 17:26:15.207107
- Title: Utilizing Prior Solutions for Reward Shaping and Composition in
Entropy-Regularized Reinforcement Learning
- Title(参考訳): エントロピー正規化強化学習における逆整形と構成のための先行解の利用
- Authors: Jacob Adamczyk, Argenis Arriojas, Stas Tiomkin, Rahul V. Kulkarni
- Abstract要約: エントロピー規則化RLにおける報酬形成とタスク構成のための一般的なフレームワークを開発する。
エントロピー規則化RLにおいて、導出関係が報酬形成の一般的な結果をもたらすことを示す。
次に、この手法を一般化し、エントロピー規則化RLにおける複数のタスクの構成に対して最適な値関数を接続する正確な関係を導出する。
- 参考スコア(独自算出の注目度): 3.058685580689605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning (RL), the ability to utilize prior knowledge from
previously solved tasks can allow agents to quickly solve new problems. In some
cases, these new problems may be approximately solved by composing the
solutions of previously solved primitive tasks (task composition). Otherwise,
prior knowledge can be used to adjust the reward function for a new problem, in
a way that leaves the optimal policy unchanged but enables quicker learning
(reward shaping). In this work, we develop a general framework for reward
shaping and task composition in entropy-regularized RL. To do so, we derive an
exact relation connecting the optimal soft value functions for two
entropy-regularized RL problems with different reward functions and dynamics.
We show how the derived relation leads to a general result for reward shaping
in entropy-regularized RL. We then generalize this approach to derive an exact
relation connecting optimal value functions for the composition of multiple
tasks in entropy-regularized RL. We validate these theoretical contributions
with experiments showing that reward shaping and task composition lead to
faster learning in various settings.
- Abstract(参考訳): 強化学習(rl)では、以前に解決したタスクから事前知識を活用することで、エージェントは新しい問題を解決することができる。
場合によっては、これらの新しい問題は、以前解決された原始的タスク(タスク合成)の解を構成することで、概ね解決することができる。
さもなくば、事前知識は、最適なポリシーを変更せずに、より迅速な学習(reward shaping)を可能にする方法で、新しい問題の報酬関数を調整するために使うことができる。
本研究では,エントロピー規則化RLにおける報酬形成とタスク構成のための一般的なフレームワークを開発する。
そこで我々は,2つのエントロピー正則なRL問題に対する最適ソフト値関数を,異なる報酬関数と動的に結合する正確な関係を導出する。
エントロピー規則化RLにおいて、導出関係が報酬形成の一般的な結果をもたらすことを示す。
次に、この手法を一般化し、エントロピー規則化RLにおける複数のタスクの構成に対して最適な値関数を接続する正確な関係を導出する。
これらの理論的な貢献を、報酬形成とタスク構成が様々な環境での学習を高速化することを示す実験で検証する。
関連論文リスト
- SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning [89.04776523010409]
本稿では、複数のRL問題が異なる報酬関数を持つが、基礎となる遷移力学を共有する転写強化学習(RL)問題を考察する。
この設定では、各RL問題(タスク)のQ-関数を後継特徴(SF)と報酬マッピングに分解することができる。
GPIを用いたSF-DQNの証明可能な一般化保証を用いた最初の収束解析を確立する。
論文 参考訳(メタデータ) (2024-05-24T20:30:14Z) - Prioritized Soft Q-Decomposition for Lexicographic Reinforcement Learning [1.8399318639816038]
我々は,レキシコグラフィーの優先度でサブタスクソリューションを学習し,適応するための優先度付きソフトQ分解(PSQD)を提案する。
PSQDは、学習済みのサブタスクソリューションをゼロショット合成で再利用する機能を提供し、次に適応ステップを提供する。
我々は,低次元と高次元の両方のロボット制御タスクに対して,学習,再利用,適応性を成功させ,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-10-03T18:36:21Z) - Bounding the Optimal Value Function in Compositional Reinforcement
Learning [2.7998963147546148]
複合タスクの最適解は、既知の原始タスクの解に関連付けられることを示す。
また、ゼロショットポリシーを使うことの後悔は、このクラスの関数に対して有界であることを示す。
論文 参考訳(メタデータ) (2023-03-05T03:06:59Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Reinforcement Learning to Solve NP-hard Problems: an Application to the
CVRP [0.0]
古典的最適化問題の解法として強化学習(Reinforcement Learning, RL)を応用した。
最も有望なRLアプローチの2つを、ベンチマークインスタンスのセットで従来の問題解決手法と比較する。
最良解を返さないにもかかわらず、RLアプローチは従来の解法よりも多くの利点があることがわかった。
論文 参考訳(メタデータ) (2022-01-14T11:16:17Z) - Reversible Action Design for Combinatorial Optimization with
Reinforcement Learning [35.50454156611722]
強化学習(rl)は、これらの問題に取り組むための新しいフレームワークとして最近登場した。
最先端の実証性能を示すだけでなく、様々な種類のCOPに一般化する汎用RLフレームワークを提案します。
論文 参考訳(メタデータ) (2021-02-14T18:05:42Z) - Weighted Entropy Modification for Soft Actor-Critic [95.37322316673617]
我々は,強化学習における最大シャノンエントロピーの原理を,定性的重みを持つ状態-作用対を特徴付けることにより,重み付きエントロピーに一般化する。
本稿では,導入した重み関数による自己バランス探索を動機とするアルゴリズムを提案し,実装の単純さに拘わらず,Mujocoタスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T04:36:03Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z) - Temporal-Logic-Based Reward Shaping for Continuing Learning Tasks [57.17673320237597]
継続タスクにおいて、平均回帰強化学習は、より一般的な割引報酬の定式化よりも適切な問題定式化である可能性がある。
本稿では,平均回帰学習のための最初の報酬形成フレームワークを提案する。
これは、標準的な仮定の下では、元の報酬関数の下での最適ポリシーを復元できることを証明している。
論文 参考訳(メタデータ) (2020-07-03T05:06:57Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。