論文の概要: Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2308.09733v1
- Date: Fri, 18 Aug 2023 02:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 20:09:55.384318
- Title: Intrinsically Motivated Hierarchical Policy Learning in Multi-objective
Markov Decision Processes
- Title(参考訳): 多目的マルコフ決定過程における本質的動機づけによる階層的政策学習
- Authors: Sherif Abdelfattah, Kathryn Merrick, Jiankun Hu
- Abstract要約: 本稿では,この制限に対処するために,本質的な2相強化学習法を提案する。
提案手法は, 動的ロボット環境において, 最先端の多目的強化法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 15.50007257943931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-objective Markov decision processes are sequential decision-making
problems that involve multiple conflicting reward functions that cannot be
optimized simultaneously without a compromise. This type of problems cannot be
solved by a single optimal policy as in the conventional case. Alternatively,
multi-objective reinforcement learning methods evolve a coverage set of optimal
policies that can satisfy all possible preferences in solving the problem.
However, many of these methods cannot generalize their coverage sets to work in
non-stationary environments. In these environments, the parameters of the state
transition and reward distribution vary over time. This limitation results in
significant performance degradation for the evolved policy sets. In order to
overcome this limitation, there is a need to learn a generic skill set that can
bootstrap the evolution of the policy coverage set for each shift in the
environment dynamics therefore, it can facilitate a continuous learning
process. In this work, intrinsically motivated reinforcement learning has been
successfully deployed to evolve generic skill sets for learning hierarchical
policies to solve multi-objective Markov decision processes. We propose a novel
dual-phase intrinsically motivated reinforcement learning method to address
this limitation. In the first phase, a generic set of skills is learned. While
in the second phase, this set is used to bootstrap policy coverage sets for
each shift in the environment dynamics. We show experimentally that the
proposed method significantly outperforms state-of-the-art multi-objective
reinforcement methods in a dynamic robotics environment.
- Abstract(参考訳): 多目的マルコフ決定プロセスは、妥協なしには同時に最適化できない複数の相反する報酬関数を含む一連の意思決定問題である。
この種の問題は、従来のような一つの最適政策では解決できない。
あるいは、多目的強化学習手法は、問題を解く際のあらゆる選択肢を満たす最適なポリシーのカバレッジセットを進化させる。
しかし,これらの手法の多くは,非定常環境で動作するようにカバレッジセットを一般化することはできない。
これらの環境では、状態遷移と報酬分布のパラメータは時間とともに変化する。
この制限により、進化したポリシーセットのパフォーマンスが大幅に低下する。
この制限を克服するには、環境のダイナミクスの変化ごとに設定されたポリシーカバレッジの進化をブートストラップできる一般的なスキルセットを学ぶ必要があるため、継続的学習プロセスを促進できる。
本研究は,多目的マルコフ決定過程を解くための階層的政策を学習するための総合的スキルセットの進化に本質的に動機づけた強化学習が成功している。
本稿では,この制限に対処する2相本質的な強化学習法を提案する。
第1フェーズでは、一般的なスキルセットが学習される。
第2フェーズでは、このセットは環境ダイナミクスのシフトごとにポリシーカバレッジセットをブートストラップするために使用される。
動的ロボット環境において,提案手法が最先端の多目的補強法を著しく上回っていることを実験的に示す。
関連論文リスト
- HarmoDT: Harmony Multi-Task Decision Transformer for Offline Reinforcement Learning [72.25707314772254]
本稿では,各タスクに対するパラメータの最適な調和部分空間を特定するための新しいソリューションであるHarmoDT(Harmony Multi-Task Decision Transformer)を紹介する。
このフレームワークの上位レベルは、調和部分空間を規定するタスク固有のマスクの学習に特化しており、内部レベルは、統一されたポリシーの全体的なパフォーマンスを高めるためにパラメータの更新に重点を置いている。
論文 参考訳(メタデータ) (2024-05-28T11:41:41Z) - Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning [26.244121960815907]
本稿では,多目的学習と制約順守の政策最適化を協調するプライマリベースフレームワークを提案する。
提案手法は,複数のRL目標を最適化するために,新しい自然ポリシー勾配演算法を用いる。
また,提案手法は,安全性の高い多目的強化学習タスクにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:42:10Z) - A Robust Policy Bootstrapping Algorithm for Multi-objective
Reinforcement Learning in Non-stationary Environments [15.794728813746397]
多目的強化学習法は、多目的最適化手法で強化学習パラダイムを融合させる。
これらの方法の大きな欠点の1つは、環境における非定常力学への適応性の欠如である。
本研究では,非定常環境において,凸カバレッジの集合をオンライン的に頑健に進化させることのできる,新しい多目的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-18T02:15:12Z) - Stepsize Learning for Policy Gradient Methods in Contextual Markov
Decision Processes [35.889129338603446]
ポリシーに基づくアルゴリズムは、モデルフリーRLにおいて最も広く採用されている手法の一つである。
彼らは、一連の不均一なタスクを達成するように頼まれたときに苦労する傾向があります。
メタMDPと呼ばれる新しい定式化を導入し、RLにおける任意のハイパーパラメータ選択問題を解くのに使うことができる。
論文 参考訳(メタデータ) (2023-06-13T12:58:12Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - UNIFY: a Unified Policy Designing Framework for Solving Constrained
Optimization Problems with Machine Learning [18.183339583346005]
複雑な意思決定問題に対するソリューションポリシーを設計するための統一的な枠組みを提案する。
我々のアプローチは、制約のないMLモデルとCO問題という2つの段階におけるポリシーの巧妙な分解に依存している。
本手法の有効性を,エネルギー管理システムと包括的要件付き集合マルチカバーの2つの実践的問題に対して示す。
論文 参考訳(メタデータ) (2022-10-25T14:09:24Z) - Planning to Practice: Efficient Online Fine-Tuning by Composing Goals in
Latent Space [76.46113138484947]
汎用ロボットは、現実世界の非構造環境において困難なタスクを完了するために、多様な行動レパートリーを必要とする。
この問題に対処するため、目標条件強化学習は、コマンド上の幅広いタスクの目標に到達可能なポリシーを取得することを目的としている。
本研究では,長期的課題に対する目標条件付き政策を実践的に訓練する手法であるPlanning to Practiceを提案する。
論文 参考訳(メタデータ) (2022-05-17T06:58:17Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - One Solution is Not All You Need: Few-Shot Extrapolation via Structured
MaxEnt RL [142.36621929739707]
課題を達成するために多様な行動を学ぶことは、様々な環境に一般化する行動を引き起こす可能性があることを示す。
トレーニング中の1つの環境でタスクの複数のソリューションを識別することにより、我々のアプローチは新たな状況に一般化できる。
論文 参考訳(メタデータ) (2020-10-27T17:41:57Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。