論文の概要: Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.04958v1
- Date: Thu, 04 Dec 2025 16:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.270427
- Title: Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning
- Title(参考訳): 実現可能な抽象化: ほぼ最適階層型強化学習
- Authors: Roberto Cipollone, Luca Iocchi, Matteo Leonetti,
- Abstract要約: 本稿では,ジェネリック低レベルMDPとそれに関連する高レベル意思決定プロセスとの新たな関係であるRealizable Abstractionsを定義した。
我々は,任意の抽象的ポリシーを,選択肢の適切な構成を通じて,低レベルMDPの準最適ポリシーに翻訳可能であることを示す。
本稿では,合成および準最適低レベルポリシを返す新しいHRLアルゴリズムであるRARLを提案する。
- 参考スコア(独自算出の注目度): 4.024538378639506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main focus of Hierarchical Reinforcement Learning (HRL) is studying how large Markov Decision Processes (MDPs) can be more efficiently solved when addressed in a modular way, by combining partial solutions computed for smaller subtasks. Despite their very intuitive role for learning, most notions of MDP abstractions proposed in the HRL literature have limited expressive power or do not possess formal efficiency guarantees. This work addresses these fundamental issues by defining Realizable Abstractions, a new relation between generic low-level MDPs and their associated high-level decision processes. The notion we propose avoids non-Markovianity issues and has desirable near-optimality guarantees. Indeed, we show that any abstract policy for Realizable Abstractions can be translated into near-optimal policies for the low-level MDP, through a suitable composition of options. As demonstrated in the paper, these options can be expressed as solutions of specific constrained MDPs. Based on these findings, we propose RARL, a new HRL algorithm that returns compositional and near-optimal low-level policies, taking advantage of the Realizable Abstraction given in the input. We show that RARL is Probably Approximately Correct, it converges in a polynomial number of samples, and it is robust to inaccuracies in the abstraction.
- Abstract(参考訳): 階層強化学習(Hierarchical Reinforcement Learning, HRL)の主な焦点は、より小さなサブタスクで計算された部分解を組み合わせることにより、モジュラー方式で処理されたマルコフ決定過程(MDP)がより効率的に解けるかを研究することである。
学習における非常に直感的な役割にもかかわらず、HRL文学において提案されたMDP抽象化の概念の多くは表現力に制限があるか、正式な効率保証を持っていない。
この研究は、ジェネリック低レベルMDPとそれに関連する高レベル意思決定プロセスとの間の新たな関係であるRealizable Abstractionsを定義することによって、これらの根本的な問題に対処する。
提案する概念は非マルコビアン性の問題を避け、望ましい準最適性を保証する。
実際、実現可能な抽象化のための抽象ポリシーは、選択肢の適切な構成により、低レベルのMDPのための準最適ポリシーに変換可能であることを示す。
論文で示されているように、これらの選択肢は特定の制約付きMDPの解として表すことができる。
これらの結果に基づき,提案するHRLアルゴリズムは,入力に付与されるRealizable Abstractionを利用して,構成的およびほぼ最適な低レベルポリシーを返却する。
RARLはおそらく略正則であり、多項式数に収束し、その抽象において不正確さが強いことを示す。
関連論文リスト
- RL in Latent MDPs is Tractable: Online Guarantees via Off-Policy Evaluation [73.2390735383842]
付加的な構造仮定を伴わずにLMDPのサンプル効率アルゴリズムを初めて導入する。
楽観的な探索アルゴリズムのほぼ最適保証を導出するためにどのように使用できるかを示す。
これらの結果は、LMDP以外の幅広い対話型学習問題、特に部分的に観察された環境において有用である。
論文 参考訳(メタデータ) (2024-06-03T14:51:27Z) - Towards Instance-Optimality in Online PAC Reinforcement Learning [28.156332484814616]
そこで本研究では,PACの同定に要するサンプルの複雑さに対する最初のインスタンス依存下限について提案する。
我々は、citeWagenmaker22linearMDPのPEDELアルゴリズムのサンプル複雑さがこの下界に近づいたことを実証する。
論文 参考訳(メタデータ) (2023-10-31T19:26:36Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Near Instance-Optimal PAC Reinforcement Learning for Deterministic MDPs [24.256960622176305]
エピソードマルコフ決定過程におけるPAC RLのサンプル複雑性について, 上界と下界の整合性について検討した。
私たちの境界は、決定論的リターンギャップ(deterministic return gap)と呼ばれる状態-作用ペアに対して、新たな最適ギャップ(sub-optimality gap)を特徴とする。
彼らの設計と分析は、最小フローや最大カットといったグラフ理論の概念を含む新しいアイデアを採用している。
論文 参考訳(メタデータ) (2022-03-17T11:19:41Z) - Towards Deployment-Efficient Reinforcement Learning: Lower Bound and
Optimality [141.89413461337324]
展開効率は、強化学習(RL)の多くの実世界の応用にとって重要な基準である
本稿では,「制約付き最適化」の観点から,デプロイ効率の高いRL(DE-RL)の理論的定式化を提案する。
論文 参考訳(メタデータ) (2022-02-14T01:31:46Z) - Reward is enough for convex MDPs [30.478950691312715]
静止分布の凸関数として目標が表現される凸MDPについて検討する。
本稿では,この問題を解決するメタアルゴリズムを提案し,文献における既存のアルゴリズムを統一することを示す。
論文 参考訳(メタデータ) (2021-06-01T17:46:25Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。