論文の概要: Predictive Control Using Learned State Space Models via Rolling Horizon
Evolution
- arxiv url: http://arxiv.org/abs/2106.13911v1
- Date: Fri, 25 Jun 2021 23:23:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 13:27:32.650768
- Title: Predictive Control Using Learned State Space Models via Rolling Horizon
Evolution
- Title(参考訳): ローリング水平展開による学習状態空間モデルによる予測制御
- Authors: Alvaro Ovalle, Simon M. Lucas
- Abstract要約: 本稿では、進化的アルゴリズム計画手法と、ディープラーニングと変分推論を用いて学習したモデルを組み合わせたテーマについて検討する。
視覚ナビゲーションタスクのセットにおいて,オンラインプランニングを確実に行うエージェントを用いて,このアプローチを実証する。
- 参考スコア(独自算出の注目度): 2.1016374925364616
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A large part of the interest in model-based reinforcement learning derives
from the potential utility to acquire a forward model capable of strategic long
term decision making. Assuming that an agent succeeds in learning a useful
predictive model, it still requires a mechanism to harness it to generate and
select among competing simulated plans. In this paper, we explore this theme
combining evolutionary algorithmic planning techniques with models learned via
deep learning and variational inference. We demonstrate the approach with an
agent that reliably performs online planning in a set of visual navigation
tasks.
- Abstract(参考訳): モデルに基づく強化学習への関心の大部分は、戦略的長期的意思決定が可能な前方モデルを取得する可能性から導かれる。
エージェントが有用な予測モデルを学ぶのに成功すると仮定すると、シミュレーションされた計画の生成と選択にそれを利用するメカニズムが必要である。
本稿では,進化的アルゴリズム計画手法とディープラーニングと変分推論を用いて学習したモデルを組み合わせることを目的とした。
視覚的ナビゲーションタスクのセットでオンライン計画を確実に行うエージェントを用いて,このアプローチを実証する。
関連論文リスト
- Adaptive Planning with Generative Models under Uncertainty [20.922248169620783]
生成モデルによる計画は、幅広い領域にわたる効果的な意思決定パラダイムとして現れてきた。
最新の環境観測に基づいて決定を下すことができるため、各段階での継続的再計画は直感的に思えるかもしれないが、かなりの計算上の課題をもたらす。
本研究は,長軸状態軌跡を予測できる生成モデルの能力を活用する,シンプルな適応計画手法を導入することで,この問題に対処する。
論文 参考訳(メタデータ) (2024-08-02T18:07:53Z) - Learning Long-Horizon Predictions for Quadrotor Dynamics [48.08477275522024]
四元数に対する長軸予測力学を効率的に学習するための鍵となる設計選択について検討する。
逐次モデリング手法は,他のタイプの手法と比較して,合成誤差を最小限に抑える上での優位性を示す。
本稿では,モジュール性の向上を図りながら,学習プロセスをさらに単純化する,疎結合な動的学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-17T19:06:47Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Visual Learning-based Planning for Continuous High-Dimensional POMDPs [81.16442127503517]
Visual Tree Search (VTS)は、オフラインで学習した生成モデルとオンラインモデルベースのPOMDP計画を組み合わせた学習と計画の手順である。
VTSは、モンテカルロの木探索プランナーにおける画像観測の可能性を予測し評価するために、一連の深部生成観測モデルを利用することで、オフラインモデルトレーニングとオンラインプランニングを橋渡しする。
VTSは、異なる観測ノイズに対して堅牢であり、オンラインのモデルベースプランニングを利用するため、再トレーニングを必要とせずに、異なる報酬構造に適応できることを示す。
論文 参考訳(メタデータ) (2021-12-17T11:53:31Z) - Learning Dynamics Models for Model Predictive Agents [28.063080817465934]
モデルに基づく強化学習は、データからテクトダイナミックスモデルを学習し、そのモデルを使用して振る舞いを最適化する。
本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデルとの比較により明らかにすることを目的としている。
論文 参考訳(メタデータ) (2021-09-29T09:50:25Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Prediction-Centric Learning of Independent Cascade Dynamics from Partial
Observations [13.680949377743392]
本稿では,このモデルから生成された予測が正確であるような拡散モデルの学習の問題に対処する。
本稿では,スケーラブルな動的メッセージパッシング手法に基づく計算効率のよいアルゴリズムを提案する。
学習モデルからの抽出可能な推論は,元のモデルと比較して限界確率の予測精度がよいことを示す。
論文 参考訳(メタデータ) (2020-07-13T17:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。