論文の概要: Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2308.09733v1
- Date: Fri, 18 Aug 2023 02:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 20:09:55.384318
- Title: Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes
- Title(参考訳): 多目的マルコフ決定過程における本質的動機づけによる階層的政策学習
- Authors: Sherif Abdelfattah, Kathryn Merrick, Jiankun Hu
- Abstract要約: 本稿では,この制限に対処するために,本質的な2相強化学習法を提案する。
提案手法は, 動的ロボット環境において, 最先端の多目的強化法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.50007257943931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective Markov decision processes are sequential decision-making
problems that involve multiple conflicting reward functions that cannot be
optimized simultaneously without a compromise. This type of problems cannot be
solved by a single optimal policy as in the conventional case. Alternatively,
multi-objective reinforcement learning methods evolve a coverage set of optimal
policies that can satisfy all possible preferences in solving the problem.
However, many of these methods cannot generalize their coverage sets to work in
non-stationary environments. In these environments, the parameters of the state
transition and reward distribution vary over time. This limitation results in
significant performance degradation for the evolved policy sets. In order to
overcome this limitation, there is a need to learn a generic skill set that can
bootstrap the evolution of the policy coverage set for each shift in the
environment dynamics therefore, it can facilitate a continuous learning
process. In this work, intrinsically motivated reinforcement learning has been
successfully deployed to evolve generic skill sets for learning hierarchical
policies to solve multi-objective Markov decision processes. We propose a novel
dual-phase intrinsically motivated reinforcement learning method to address
this limitation. In the first phase, a generic set of skills is learned. While
in the second phase, this set is used to bootstrap policy coverage sets for
each shift in the environment dynamics. We show experimentally that the
proposed method significantly outperforms state-of-the-art multi-objective
reinforcement methods in a dynamic robotics environment.
- Abstract(参考訳): 多目的マルコフ決定プロセスは、妥協なしには同時に最適化できない複数の相反する報酬関数を含む一連の意思決定問題である。
この種の問題は、従来のような一つの最適政策では解決できない。
あるいは、多目的強化学習手法は、問題を解く際のあらゆる選択肢を満たす最適なポリシーのカバレッジセットを進化させる。
しかし,これらの手法の多くは,非定常環境で動作するようにカバレッジセットを一般化することはできない。
これらの環境では、状態遷移と報酬分布のパラメータは時間とともに変化する。
この制限により、進化したポリシーセットのパフォーマンスが大幅に低下する。
この制限を克服するには、環境のダイナミクスの変化ごとに設定されたポリシーカバレッジの進化をブートストラップできる一般的なスキルセットを学ぶ必要があるため、継続的学習プロセスを促進できる。
本研究は,多目的マルコフ決定過程を解くための階層的政策を学習するための総合的スキルセットの進化に本質的に動機づけた強化学習が成功している。
本稿では,この制限に対処する2相本質的な強化学習法を提案する。
第1フェーズでは、一般的なスキルセットが学習される。
第2フェーズでは、このセットは環境ダイナミクスのシフトごとにポリシーカバレッジセットをブートストラップするために使用される。
動的ロボット環境において,提案手法が最先端の多目的補強法を著しく上回っていることを実験的に示す。
関連論文リスト
- A Robust Policy Bootstrapping Algorithm for Multi-objective
Reinforcement Learning in Non-stationary Environments [15.794728813746397]
多目的強化学習法は、多目的最適化手法で強化学習パラダイムを融合させる。
これらの方法の大きな欠点の1つは、環境における非定常力学への適応性の欠如である。
本研究では,非定常環境において,凸カバレッジの集合をオンライン的に頑健に進化させることのできる,新しい多目的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T02:15:12Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - UNIFY: a Unified Policy Designing Framework for Solving Constrained
Optimization Problems with Machine Learning [18.183339583346005]
複雑な意思決定問題に対するソリューションポリシーを設計するための統一的な枠組みを提案する。
我々のアプローチは、制約のないMLモデルとCO問題という2つの段階におけるポリシーの巧妙な分解に依存している。
本手法の有効性を,エネルギー管理システムと包括的要件付き集合マルチカバーの2つの実践的問題に対して示す。
論文 参考訳(メタデータ) (2022-10-25T14:09:24Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - Unsupervised Reinforcement Learning in Multiple Environments [37.5349071806395]
複数の環境のクラスにおける教師なし強化学習の課題に対処する。
本稿では,クラス間のインタラクションを通じて導入対象を最適化するために,ポリシー勾配アルゴリズムである$alpha$MEPOLを提案する。
事前学習した探索戦略から,強化学習が大きなメリットがあることが示唆された。
論文 参考訳(メタデータ) (2021-12-16T09:54:37Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。