論文の概要: Gradient-based Planning with World Models
- arxiv url: http://arxiv.org/abs/2312.17227v1
- Date: Thu, 28 Dec 2023 18:54:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 14:59:54.837770
- Title: Gradient-based Planning with World Models
- Title(参考訳): 世界モデルによるグラディエント計画
- Authors: Jyothir S V, Siddhartha Jalagam, Yann LeCun, Vlad Sobal
- Abstract要約: 我々は、世界モデルの微分可能性を完全に活用する勾配に基づく代替案について検討する。
サンプル効率のよい設定では、ほとんどのタスクの代替手法と比較して、同等あるいは優れた性能が得られる。
- 参考スコア(独自算出の注目度): 21.9392160209565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The enduring challenge in the field of artificial intelligence has been the
control of systems to achieve desired behaviours. While for systems governed by
straightforward dynamics equations, methods like Linear Quadratic Regulation
(LQR) have historically proven highly effective, most real-world tasks, which
require a general problem-solver, demand world models with dynamics that cannot
be easily described by simple equations. Consequently, these models must be
learned from data using neural networks. Most model predictive control (MPC)
algorithms designed for visual world models have traditionally explored
gradient-free population-based optimisation methods, such as Cross Entropy and
Model Predictive Path Integral (MPPI) for planning. However, we present an
exploration of a gradient-based alternative that fully leverages the
differentiability of the world model. In our study, we conduct a comparative
analysis between our method and other MPC-based alternatives, as well as
policy-based algorithms. In a sample-efficient setting, our method achieves on
par or superior performance compared to the alternative approaches in most
tasks. Additionally, we introduce a hybrid model that combines policy networks
and gradient-based MPC, which outperforms pure policy based methods thereby
holding promise for Gradient-based planning with world models in complex
real-world tasks.
- Abstract(参考訳): 人工知能分野における永続的な課題は、望ましい行動を達成するためのシステムの制御である。
単純な力学方程式によって制御されるシステムでは、線形二次規則 (LQR) のような手法は歴史的に非常に効果的であることが証明されてきたが、ほとんどの実世界のタスクは、単純な方程式では容易に説明できないダイナミクスを持つ要求世界モデルを必要とする。
その結果、これらのモデルはニューラルネットワークを使用してデータから学ぶ必要がある。
視覚世界モデル用に設計されたモデル予測制御 (mpc) アルゴリズムの多くは、従来、横断エントロピーやモデル予測経路積分 (mppi) といった勾配なしの集団に基づく最適化法を探索してきた。
しかし、世界モデルの微分可能性を完全に活用する勾配に基づく代替案について検討する。
本研究では,本手法と他のmpcベースの代替手法,およびポリシーに基づくアルゴリズムの比較分析を行った。
サンプル効率の良い環境では,ほとんどのタスクにおける代替手法と同等かそれ以上の性能が得られる。
さらに、政策ネットワークとグラデーションベースのmpcを組み合わせたハイブリッドモデルを導入することで、複雑な実世界のタスクにおいて、グラデーションベースの計画とワールドモデルとを両立させることができる。
関連論文リスト
- Model-based Policy Optimization using Symbolic World Model [46.42871544295734]
ロボット工学における学習に基づく制御手法の適用は、大きな課題を呈している。
1つは、モデルなし強化学習アルゴリズムがサンプル効率の低い観測データを使用することである。
シンボリック回帰によって生成されるシンボリック表現による遷移ダイナミクスの近似を提案する。
論文 参考訳(メタデータ) (2024-07-18T13:49:21Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Fully Decentralized Model-based Policy Optimization for Networked
Systems [23.46407780093797]
本研究の目的は,モデルベース学習によるマルチエージェント制御のデータ効率の向上である。
エージェントが協力的であり、隣人とのみローカルに通信するネットワークシステムについて検討する。
提案手法では,各エージェントが将来の状態を予測し,通信によって予測をブロードキャストする動的モデルを学習し,その後,モデルロールアウトに基づいてポリシーをトレーニングする。
論文 参考訳(メタデータ) (2022-07-13T23:52:14Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。