論文の概要: Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer
- arxiv url: http://arxiv.org/abs/2007.05896v1
- Date: Sun, 12 Jul 2020 03:33:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:12:43.291995
- Title: Learning Abstract Models for Strategic Exploration and Fast Reward
Transfer
- Title(参考訳): 戦略的探索と高速逆移動のための抽象モデル学習
- Authors: Evan Zheran Liu, Ramtin Keramati, Sudarshan Seshadri, Kelvin Guu,
Panupong Pasupat, Emma Brunskill, Percy Liang
- Abstract要約: 我々は,抽象状態のマルコフ決定過程(MDP)を正確に学習し,複雑なエラーを避ける。
本手法は,最も難易度の高い3つのアーケード学習環境ゲームにおいて,強力な結果をもたらす。
学習した抽象MDPを新しい報酬関数に再利用することができ、スクラッチから訓練されたモデルフリーメソッドよりも1000倍少ないサンプルで高い報酬が得られる。
- 参考スコア(独自算出の注目度): 85.19766065886422
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model-based reinforcement learning (RL) is appealing because (i) it enables
planning and thus more strategic exploration, and (ii) by decoupling dynamics
from rewards, it enables fast transfer to new reward functions. However,
learning an accurate Markov Decision Process (MDP) over high-dimensional states
(e.g., raw pixels) is extremely challenging because it requires function
approximation, which leads to compounding errors. Instead, to avoid compounding
errors, we propose learning an abstract MDP over abstract states:
low-dimensional coarse representations of the state (e.g., capturing agent
position, ignoring other objects). We assume access to an abstraction function
that maps the concrete states to abstract states. In our approach, we construct
an abstract MDP, which grows through strategic exploration via planning.
Similar to hierarchical RL approaches, the abstract actions of the abstract MDP
are backed by learned subpolicies that navigate between abstract states. Our
approach achieves strong results on three of the hardest Arcade Learning
Environment games (Montezuma's Revenge, Pitfall!, and Private Eye), including
superhuman performance on Pitfall! without demonstrations. After training on
one task, we can reuse the learned abstract MDP for new reward functions,
achieving higher reward in 1000x fewer samples than model-free methods trained
from scratch.
- Abstract(参考訳): モデルベース強化学習(rl)が魅力的な理由
(i)計画とより戦略的な探査を可能にし、
(ii) 報酬からダイナミクスを分離することで、新たな報酬機能への迅速な転送を可能にする。
しかし、高次元状態(例えば原画素)上で正確なマルコフ決定過程(MDP)を学ぶことは、関数近似を必要とするため非常に難しい。
代わりに、エラーの複合を避けるために、抽象的なmdpを学習することを提案する: 状態の低次元粗い表現(例えば、エージェントの位置を捉えたり、他のオブジェクトを無視したり)。
具体的な状態を抽象状態にマッピングする抽象関数へのアクセスを想定する。
提案手法では,計画による戦略的探索を通じて成長する抽象的MDPを構築する。
階層的RLアプローチと同様に、抽象MDPの抽象的な動作は、抽象状態の間を移動する学習サブポリケーションによって支えられている。
本手法は,モンテズマのRevenge,Pitfall!,Private Eyeの3つの最も難しいアーケード学習環境ゲーム(Montezuma's Revenge,Pitfall!,Private Eye!
1つのタスクでトレーニングした後、学習した抽象的MDPを新しい報酬関数に再利用することができ、スクラッチからトレーニングしたモデルフリーメソッドよりも1000倍少ないサンプルで報酬を得ることができる。
関連論文リスト
- Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Learning Abstract World Model for Value-preserving Planning with Options [11.254212901595523]
所与の時間的拡張行動の構造を利用して抽象マルコフ決定過程(MDP)を学習する。
我々は、これらのスキルによる計画が、抽象MDPにおける軌跡をシミュレートすることによって、元のMDPにおける有界値損失のポリシーをもたらすことを確実にするために必要な状態抽象化を特徴付ける。
目標をベースとしたナビゲーション環境では,連続的な抽象状態の計画が成功し,抽象モデル学習が計画と学習のサンプル効率を向上させることを示す。
論文 参考訳(メタデータ) (2024-06-22T13:41:02Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - AbsPyramid: Benchmarking the Abstraction Ability of Language Models with a Unified Entailment Graph [62.685920585838616]
抽象能力は人間の知性において必須であり、言語モデルでは未探索のままである。
本稿では、抽象知識の221Kテキスト記述を統一したエンテーメントグラフであるAbsPyramidを提案する。
論文 参考訳(メタデータ) (2023-11-15T18:11:23Z) - Exploiting Multiple Abstractions in Episodic RL via Reward Shaping [23.61187560936501]
対象領域の下位にあるマルコフ決定過程(MDP)の抽象層の線形階層について考察する。
本稿では,抽象レベルで得られる解を用いて,より具体的なMDPに報酬を与える方法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:22:29Z) - Does Deep Learning Learn to Abstract? A Systematic Probing Framework [69.2366890742283]
抽象化はディープラーニングモデルにとって望ましい機能であり、具体的なインスタンスから抽象概念を誘導し、学習コンテキストを超えて柔軟に適用することを意味する。
本稿では,伝達可能性の観点から,ディープラーニングモデルの抽象化能力を検討するための体系的探索フレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T12:50:02Z) - Discrete State-Action Abstraction via the Successor Representation [3.453310639983932]
抽象化(Abstraction)は、エージェントに潜伏空間の遷移に固有の報酬を与えるアプローチである。
私たちのアプローチは、基盤となる環境の離散的な抽象化を自動的に学習する最初のものです。
提案アルゴリズムであるDSAA(Disdisrete State-Action Abstraction)は,これらのオプションのトレーニングと,それを用いて環境のより効率的な探索を行う。
論文 参考訳(メタデータ) (2022-06-07T17:37:30Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。