論文の概要: Globally Optimal Hierarchical Reinforcement Learning for
Linearly-Solvable Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2106.15380v1
- Date: Tue, 29 Jun 2021 13:10:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:43:50.276496
- Title: Globally Optimal Hierarchical Reinforcement Learning for
Linearly-Solvable Markov Decision Processes
- Title(参考訳): 線形解法マルコフ決定過程に対するグローバル最適階層強化学習
- Authors: Guillermo Infante, Anders Jonsso, Vicen\c{c} G\'omez
- Abstract要約: 線形解決可能なマルコフ決定過程に対する階層的強化学習のための新しい手法を提案する。
いくつかの抽象化レベルにおける値関数を表現し、サブタスクの構成性を用いて各パーティションにおける状態の最適値を推定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work we present a novel approach to hierarchical reinforcement
learning for linearly-solvable Markov decision processes. Our approach assumes
that the state space is partitioned, and the subtasks consist in moving between
the partitions. We represent value functions on several levels of abstraction,
and use the compositionality of subtasks to estimate the optimal values of the
states in each partition. The policy is implicitly defined on these optimal
value estimates, rather than being decomposed among the subtasks. As a
consequence, our approach can learn the globally optimal policy, and does not
suffer from the non-stationarity of high-level decisions. If several partitions
have equivalent dynamics, the subtasks of those partitions can be shared. If
the set of boundary states is smaller than the entire state space, our approach
can have significantly smaller sample complexity than that of a flat learner,
and we validate this empirically in several experiments.
- Abstract(参考訳): 本研究では,線形解決可能なマルコフ決定過程に対する階層的強化学習手法を提案する。
我々のアプローチでは、状態空間が分割されていると仮定し、サブタスクはパーティション間の移動によって構成される。
いくつかの抽象化レベルにおける値関数を表現し、サブタスクの構成性を用いて各パーティションにおける状態の最適値を推定する。
このポリシーは、サブタスク間で分解されるのではなく、これらの最適値推定に暗黙的に定義されている。
その結果、我々のアプローチはグローバルな最適政策を学習することができ、ハイレベルな決定の非定常性に苦しむことはない。
いくつかのパーティションが等価なダイナミクスを持つ場合、これらのパーティションのサブタスクを共有できる。
境界状態の集合が状態空間全体よりも小さい場合、我々の手法は平らな学習者よりもサンプルの複雑さが著しく小さくなり、いくつかの実験でこれを実証的に検証する。
関連論文リスト
- Contextual Stochastic Bilevel Optimization [50.36775806399861]
文脈情報と上層変数の期待を最小化する2レベル最適化フレームワークCSBOを導入する。
メタラーニング、パーソナライズドラーニング、エンド・ツー・エンドラーニング、Wassersteinはサイド情報(WDRO-SI)を分散的に最適化している。
論文 参考訳(メタデータ) (2023-10-27T23:24:37Z) - Measurement Simplification in \rho-POMDP with Performance Guarantees [7.241667195519011]
不確実性の下での意思決定は、不完全な情報で行動する自律システムの中心にある。
本稿では,高次元観測空間を分割することで,効率的な意思決定手法を提案する。
境界は適応的で、計算効率が良く、元の解に収束していることが示される。
論文 参考訳(メタデータ) (2023-09-19T15:40:42Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Multi-Resolution Online Deterministic Annealing: A Hierarchical and
Progressive Learning Architecture [0.0]
本稿では,多解像度データ空間のプログレッシブパーティショニングに基づく汎用階層型学習アーキテクチャを提案する。
各最適化問題の解は、勾配のない近似更新を用いてオンラインで推定できることを示す。
教師なしおよび教師なしの学習問題に対して、漸近収束解析と実験結果を提供する。
論文 参考訳(メタデータ) (2022-12-15T23:21:49Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Context-Specific Representation Abstraction for Deep Option Learning [43.68681795014662]
我々は、Deep Option Learning(CRADOL)のためのコンテキスト特化表現抽象化を導入する。
CRADOLは、時間的抽象化とコンテキスト固有の表現抽象化の両方を考慮し、ポリシー空間上の検索のサイズを効果的に削減する新しいフレームワークである。
具体的には、各オプションが状態空間のサブセクションのみを越えてポリシーを学習することのできる、ファクタードな信念状態表現を学習する。
論文 参考訳(メタデータ) (2021-09-20T22:50:01Z) - A Boosting Approach to Reinforcement Learning [59.46285581748018]
複雑度が状態数に依存しない意思決定プロセスにおける強化学習のための効率的なアルゴリズムについて検討する。
このような弱い学習手法の精度を向上させることができる効率的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-08-22T16:00:45Z) - Beyond Value-Function Gaps: Improved Instance-Dependent Regret Bounds
for Episodic Reinforcement Learning [50.44564503645015]
有限エピソードマルコフ決定過程における強化学習のための改良されたギャップ依存的後悔境界を提供する。
楽観的なアルゴリズムでは,より強い後悔境界を証明し,多数のMDPに対して新たな情報理論的下限を伴う。
論文 参考訳(メタデータ) (2021-07-02T20:36:05Z) - Hierarchical Representation Learning for Markov Decision Processes [9.904746542801837]
マルコフ決定過程の階層的表現を学習するための新しい手法を提案する。
我々の手法は状態空間をサブセットに分割することで機能し、パーティション間の遷移を実行するためのサブタスクを定義する。
本手法は,ナビゲーション領域において有用な階層表現をうまく学習できることを示し,実証的に検証する。
論文 参考訳(メタデータ) (2021-06-03T07:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。