論文の概要: Visual Learning-based Planning for Continuous High-Dimensional POMDPs
- arxiv url: http://arxiv.org/abs/2112.09456v1
- Date: Fri, 17 Dec 2021 11:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-20 20:57:53.247408
- Title: Visual Learning-based Planning for Continuous High-Dimensional POMDPs
- Title(参考訳): 連続高次元PMDPのための視覚学習型計画法
- Authors: Sampada Deglurkar, Michael H. Lim, Johnathan Tucker, Zachary N.
Sunberg, Aleksandra Faust, Claire J. Tomlin
- Abstract要約: Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
- 参考スコア(独自算出の注目度): 81.16442127503517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Partially Observable Markov Decision Process (POMDP) is a powerful
framework for capturing decision-making problems that involve state and
transition uncertainty. However, most current POMDP planners cannot effectively
handle very high-dimensional observations they often encounter in the real
world (e.g. image observations in robotic domains). In this work, we propose
Visual Tree Search (VTS), a learning and planning procedure that combines
generative models learned offline with online model-based POMDP planning. VTS
bridges offline model training and online planning by utilizing a set of deep
generative observation models to predict and evaluate the likelihood of image
observations in a Monte Carlo tree search planner. We show that VTS is robust
to different observation noises and, since it utilizes online, model-based
planning, can adapt to different reward structures without the need to
re-train. This new approach outperforms a baseline state-of-the-art on-policy
planning algorithm while using significantly less offline training time.
- Abstract(参考訳): 部分観測可能なマルコフ決定プロセス(POMDP)は、状態と遷移の不確実性を含む意思決定問題を解決するための強力なフレームワークである。
しかし、現在のほとんどのPOMDPプランナーは、現実世界でしばしば遭遇する非常に高次元の観測(例えば、ロボット領域における画像観察)を効果的に扱えない。
本研究では,オフラインで学習した生成モデルとオンラインモデルに基づくPOMDP計画を組み合わせた学習計画手法であるVisual Tree Search (VTS)を提案する。
vtsは、モンテカルロ木探索プランナーにおける画像観測の可能性を予測するために、一連の深部生成的観測モデルを用いてオフラインモデルトレーニングとオンライン計画とを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
この新しいアプローチは、オフラインのトレーニング時間を大幅に削減しながら、最先端のオン・ポリシー計画アルゴリズムを上回っている。
関連論文リスト
- A New View on Planning in Online Reinforcement Learning [19.35031543927374]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:45:19Z) - Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Planning as In-Painting: A Diffusion-Based Embodied Task Planning
Framework for Environments under Uncertainty [56.30846158280031]
具体的AIのためのタスクプランニングは、最も難しい問題の1つだ。
In-paintingとしての計画」というタスク非依存の手法を提案する。
提案するフレームワークは,様々な具体的AIタスクにおいて,有望なパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-12-02T10:07:17Z) - PDSketch: Integrated Planning Domain Programming and Learning [86.07442931141637]
我々は PDSketch という新しいドメイン定義言語を提案する。
これにより、ユーザーはトランジションモデルで柔軟にハイレベルな構造を定義できる。
移行モデルの詳細は、トレーニング可能なニューラルネットワークによって満たされる。
論文 参考訳(メタデータ) (2023-03-09T18:54:12Z) - Online learning techniques for prediction of temporal tabular datasets
with regime changes [0.0]
時間パネルデータセットの予測をランキングするモジュール型機械学習パイプラインを提案する。
パイプラインのモジュラリティにより、GBDT(Gradient Boosting Decision Tree)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。
モデルの再トレーニングを必要としないオンライン学習技術は、予測後の結果を高めるために使用することができる。
論文 参考訳(メタデータ) (2022-12-30T17:19:00Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Predictive Control Using Learned State Space Models via Rolling Horizon
Evolution [2.1016374925364616]
本稿では、進化的アルゴリズム計画手法と、ディープラーニングと変分推論を用いて学習したモデルを組み合わせたテーマについて検討する。
視覚ナビゲーションタスクのセットにおいて,オンラインプランニングを確実に行うエージェントを用いて,このアプローチを実証する。
論文 参考訳(メタデータ) (2021-06-25T23:23:42Z) - Hallucinative Topological Memory for Zero-Shot Visual Planning [86.20780756832502]
視覚計画(VP)では、エージェントは、オフラインで取得した動的システムの観察から目標指向の振る舞いを計画することを学ぶ。
以前のVPに関するほとんどの研究は、学習された潜在空間で計画することでこの問題にアプローチし、結果として品質の低い視覚計画を生み出した。
本稿では,画像空間を直接計画し,競合性能を示すシンプルなVP手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T18:54:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。