論文の概要: Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels
- arxiv url: http://arxiv.org/abs/2310.09997v1
- Date: Mon, 16 Oct 2023 01:13:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 16:58:26.451980
- Title: Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels
- Title(参考訳): Forecaster: 一時的に抽象的なツリー検索計画に向けて
- Authors: Thomas Jiralerspong, Flemming Kondrup, Doina Precup, Khimya Khetarpal
- Abstract要約: Forecasterは、階層的な強化学習アプローチで、高いレベルの目標を計画する。
Forecasterは、トランジッションのダイナミクスを抽象レベルでモデル化することで、環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー探索計画手順を通じて最適なハイレベルな目標を選択する。
- 参考スコア(独自算出の注目度): 42.275164872809746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to plan at many different levels of abstraction enables agents to
envision the long-term repercussions of their decisions and thus enables
sample-efficient learning. This becomes particularly beneficial in complex
environments from high-dimensional state space such as pixels, where the goal
is distant and the reward sparse. We introduce Forecaster, a deep hierarchical
reinforcement learning approach which plans over high-level goals leveraging a
temporally abstract world model. Forecaster learns an abstract model of its
environment by modelling the transitions dynamics at an abstract level and
training a world model on such transition. It then uses this world model to
choose optimal high-level goals through a tree-search planning procedure. It
additionally trains a low-level policy that learns to reach those goals. Our
method not only captures building world models with longer horizons, but also,
planning with such models in downstream tasks. We empirically demonstrate
Forecaster's potential in both single-task learning and generalization to new
tasks in the AntMaze domain.
- Abstract(参考訳): さまざまな抽象化レベルを計画する能力により、エージェントは意思決定の長期的な影響を想定することができ、サンプル効率のよい学習が可能になる。
これは、ゴールが遠く、報酬がスパースである画素のような高次元状態空間からの複雑な環境において特に有益となる。
本稿では,時間的抽象世界モデルを活用した高次目標を計画する階層的強化学習手法であるForecasterを紹介する。
予測者は、遷移ダイナミクスを抽象レベルでモデル化し、そのような遷移に関する世界モデルを訓練することによって、その環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー検索計画手順を通じて最適なハイレベル目標を選択する。
また、これらの目標を達成するための低レベルの政策も訓練している。
提案手法は,より長い地平線を持つ世界モデルの構築だけでなく,下流タスクにおけるそのようなモデルによる計画も行う。
我々は、単タスク学習とantmazeドメインにおける新しいタスクへの一般化の両方において予測可能性を示す。
関連論文リスト
- Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Exploring the limits of Hierarchical World Models in Reinforcement Learning [0.7499722271664147]
我々は,新しいHMBRLフレームワークを記述し,それを徹底的に評価する。
時間的抽象の様々なレベルで環境力学をシミュレートする階層的世界モデルを構築した。
ほとんどのゴール条件付き H(MB)RL アプローチとは異なり、これは相対的に低次元の抽象作用をもたらす。
論文 参考訳(メタデータ) (2024-06-01T16:29:03Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Learning Efficient Abstract Planning Models that Choose What to Predict [28.013014215441505]
多くのロボティクス分野において,既存の記号演算子学習アプローチが不足していることが示されている。
これは主に、抽象状態におけるすべての観測された変化を正確に予測する演算子を学習しようとするためである。
我々は,特定の目標を達成するための抽象的計画に必要な変化をモデル化するだけで,「予測すべきものを選択する」演算子を学習することを提案する。
論文 参考訳(メタデータ) (2022-08-16T13:12:59Z) - Deep Hierarchical Planning from Pixels [86.14687388689204]
Directorは、学習された世界モデルの潜在空間内で計画し、ピクセルから直接階層的な振る舞いを学ぶ方法である。
潜在空間で運用されているにもかかわらず、世界モデルは視覚化のためにゴールを画像にデコードできるため、決定は解釈可能である。
Directorはまた、ビジュアルコントロール、Atariゲーム、DMLabレベルなど、幅広い環境で成功した行動を学ぶ。
論文 参考訳(メタデータ) (2022-06-08T18:20:15Z) - Landmark Policy Optimization for Object Navigation Task [77.34726150561087]
本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T12:28:46Z) - World Model as a Graph: Learning Latent Landmarks for Planning [12.239590266108115]
計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
論文 参考訳(メタデータ) (2020-11-25T02:49:21Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - From proprioception to long-horizon planning in novel environments: A
hierarchical RL model [4.44317046648898]
本稿では,異なるタイプの推論を反映した,単純で3段階の階層型アーキテクチャを提案する。
本手法をMujoco Ant環境における一連のナビゲーションタスクに適用する。
論文 参考訳(メタデータ) (2020-06-11T17:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。