論文の概要: Exploiting Multiple Abstractions in Episodic RL via Reward Shaping
- arxiv url: http://arxiv.org/abs/2303.00516v2
- Date: Fri, 4 Aug 2023 14:22:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 16:10:00.248891
- Title: Exploiting Multiple Abstractions in Episodic RL via Reward Shaping
- Title(参考訳): 逆整形によるエピソードRLの多重抽象化
- Authors: Roberto Cipollone, Giuseppe De Giacomo, Marco Favorito, Luca Iocchi,
Fabio Patrizi
- Abstract要約: 対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
- 参考スコア(独自算出の注目度): 23.61187560936501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One major limitation to the applicability of Reinforcement Learning (RL) to
many practical domains is the large number of samples required to learn an
optimal policy. To address this problem and improve learning efficiency, we
consider a linear hierarchy of abstraction layers of the Markov Decision
Process (MDP) underlying the target domain. Each layer is an MDP representing a
coarser model of the one immediately below in the hierarchy. In this work, we
propose a novel form of Reward Shaping where the solution obtained at the
abstract level is used to offer rewards to the more concrete MDP, in such a way
that the abstract solution guides the learning in the more complex domain. In
contrast with other works in Hierarchical RL, our technique has few
requirements in the design of the abstract models and it is also tolerant to
modeling errors, thus making the proposed approach practical. We formally
analyze the relationship between the abstract models and the exploration
heuristic induced in the lower-level domain. Moreover, we prove that the method
guarantees optimal convergence and we demonstrate its effectiveness
experimentally.
- Abstract(参考訳): 多くの実践領域への強化学習(rl)の適用性に対する大きな制限の1つは、最適なポリシーを学ぶのに必要な大量のサンプルである。
この問題に対処し、学習効率を向上させるために、ターゲット領域の根底にあるマルコフ決定プロセス(MDP)の抽象層の線形階層を考える。
各層は階層内の直下の層の粗いモデルを表すMDPである。
そこで本研究では,より具体的なmdpに対して,抽象的な解がより複雑な領域で学習を導くように,抽象レベルで得られる解を用いて報奨を与える,新しい報奨形法を提案する。
階層型rlの他の作品とは対照的に,本手法は抽象モデルの設計における要件がほとんどなく,また,誤差のモデル化にも耐性があるため,提案手法が実用的である。
抽象モデルと低レベル領域で引き起こされる探索ヒューリスティックとの関係を形式的に解析する。
さらに,本手法が最適収束を保証し,その効果を実験的に実証する。
関連論文リスト
- Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning [22.25237742815589]
多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T23:05:43Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer [85.19766065886422]
我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
論文 参考訳(メタデータ) (2020-07-12T03:33:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。