論文の概要: A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning
- arxiv url: http://arxiv.org/abs/2406.15124v1
- Date: Fri, 21 Jun 2024 13:17:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 13:32:37.629917
- Title: A Provably Efficient Option-Based Algorithm for both High-Level and Low-Level Learning
- Title(参考訳): 高レベル学習と低レベル学習の双方に有効なオプションベースアルゴリズム
- Authors: Gianluca Drappo, Alberto Maria Metelli, Marcello Restelli,
- Abstract要約: 異なる(高低と高低の)時間的抽象化において,後悔最小化アルゴリズムのメタアルゴリズムを交互に提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
- 参考スコア(独自算出の注目度): 54.20447310988282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical Reinforcement Learning (HRL) approaches have shown successful results in solving a large variety of complex, structured, long-horizon problems. Nevertheless, a full theoretical understanding of this empirical evidence is currently missing. In the context of the \emph{option} framework, prior research has devised efficient algorithms for scenarios where options are fixed, and the high-level policy selecting among options only has to be learned. However, the fully realistic scenario in which both the high-level and the low-level policies are learned is surprisingly disregarded from a theoretical perspective. This work makes a step towards the understanding of this latter scenario. Focusing on the finite-horizon problem, we present a meta-algorithm alternating between regret minimization algorithms instanced at different (high and low) temporal abstractions. At the higher level, we treat the problem as a Semi-Markov Decision Process (SMDP), with fixed low-level policies, while at a lower level, inner option policies are learned with a fixed high-level policy. The bounds derived are compared with the lower bound for non-hierarchical finite-horizon problems, allowing to characterize when a hierarchical approach is provably preferable, even without pre-trained options.
- Abstract(参考訳): Hierarchical Reinforcement Learning (HRL)アプローチは、多種多様な複雑な構造化された長期水平問題の解決に成功している。
しかしながら、この経験的証拠に関する完全な理論的理解は、現在欠落している。
emph{option}フレームワークのコンテキストにおいて、事前の研究は、オプションが固定されたシナリオのための効率的なアルゴリズムを考案し、オプションの中から選択される高レベルなポリシーを学習する必要がある。
しかし、高レベルの政策と低レベルの政策の両方が学習される完全に現実的なシナリオは、理論的な観点から驚くほど無視されている。
この研究は後者のシナリオを理解するための一歩となる。
有限ホライゾン問題に焦点をあてて、異なる(高低低)時間的抽象化に代表される後悔最小化アルゴリズムを交互に扱うメタアルゴリズムを提案する。
高いレベルでは、半マルコフ決定プロセス(SMDP)として、固定された低レベルポリシーで、低いレベルでは内部オプションポリシーを固定された高レベルポリシーで学習する。
導出された境界は、非階層的有限水平問題に対する下界と比較され、事前訓練された選択肢がなくても、階層的アプローチが証明可能であれば特徴付けることができる。
関連論文リスト
- Hierarchical Average-Reward Linearly-solvable Markov Decision Processes [11.69049916139847]
線形解決可能なマルコフ決定過程に対する階層的強化学習のための新しいアプローチを提案する。
提案手法では,低レベルのタスクに制限を加えることなく,低レベルのタスクと高レベルのタスクを同時に学習することができる。
実験により,本手法は1桁ないし数桁の平坦な平均逆強化学習より優れることが示された。
論文 参考訳(メタデータ) (2024-07-09T09:06:44Z) - A Primal-Dual-Assisted Penalty Approach to Bilevel Optimization with Coupled Constraints [66.61399765513383]
We developed a BLOCC algorithm to tackle BiLevel Optimization problems with Coupled Constraints。
2つのよく知られた実世界のアプリケーションでその効果を実証する。
論文 参考訳(メタデータ) (2024-06-14T15:59:36Z) - Contextual Stochastic Bilevel Optimization [50.36775806399861]
文脈情報と上層変数の期待を最小化する2レベル最適化フレームワークCSBOを導入する。
メタラーニング、パーソナライズドラーニング、エンド・ツー・エンドラーニング、Wassersteinはサイド情報(WDRO-SI)を分散的に最適化している。
論文 参考訳(メタデータ) (2023-10-27T23:24:37Z) - An Option-Dependent Analysis of Regret Minimization Algorithms in
Finite-Horizon Semi-Markov Decision Processes [47.037877670620524]
有限ホライゾン問題における後悔最小化アルゴリズムに苦しむ後悔に対するオプション依存上界について述べる。
本稿では,階層構造によって強制される時間的抽象化によって誘導される計画的地平線低減から,性能改善が導かれることを示す。
論文 参考訳(メタデータ) (2023-05-10T15:00:05Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - A policy gradient approach for Finite Horizon Constrained Markov Decision Processes [6.682382456607199]
固定時間(有限時間)後に地平線が終了する有限水平設定における制約付きRLのアルゴリズムを提案する。
我々の知る限り、制約付き有限地平線設定のための最初のポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-10T09:52:02Z) - Provable Hierarchical Imitation Learning via EM [2.864550757598007]
専門家による実証から選択肢型階層政策を学習することを検討する。
Danielらによって提案されたEMアプローチを特徴付ける。
提案アルゴリズムは実パラメータの周囲のノルム球に高い確率で収束することを示す。
論文 参考訳(メタデータ) (2020-10-07T03:21:57Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。