論文の概要: Temporal Difference Learning for Model Predictive Control
- arxiv url: http://arxiv.org/abs/2203.04955v1
- Date: Wed, 9 Mar 2022 18:58:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 17:38:51.564020
- Title: Temporal Difference Learning for Model Predictive Control
- Title(参考訳): モデル予測制御のための時間差学習
- Authors: Nicklas Hansen, Xiaolong Wang, Hao Su
- Abstract要約: データ駆動モデル予測制御は、モデルフリーメソッドよりも2つの大きな利点がある。
TD-MPCは、状態と画像に基づく連続制御タスクの事前処理よりも、より優れたサンプリング効率と性能を実現する。
- 参考スコア(独自算出の注目度): 29.217382374051347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data-driven model predictive control has two key advantages over model-free
methods: a potential for improved sample efficiency through model learning, and
better performance as computational budget for planning increases. However, it
is both costly to plan over long horizons and challenging to obtain an accurate
model of the environment. In this work, we combine the strengths of model-free
and model-based methods. We use a learned task-oriented latent dynamics model
for local trajectory optimization over a short horizon, and use a learned
terminal value function to estimate long-term return, both of which are learned
jointly by temporal difference learning. Our method, TD-MPC, achieves superior
sample efficiency and asymptotic performance over prior work on both state and
image-based continuous control tasks from DMControl and Meta-World. Code and
video results are available at https://nicklashansen.github.io/td-mpc.
- Abstract(参考訳): データ駆動型モデル予測制御は、モデルフリーな手法よりも2つの大きな利点がある。
しかし、長い地平線を計画することは費用がかかり、環境の正確なモデルを得ることは困難である。
本研究では,モデルフリー手法とモデルベース手法の長所を組み合わせる。
短時間の地平線上での局所軌道最適化には,学習タスク指向潜在力学モデルを用い,学習終端値関数を用いて,時間差分学習によって共に学習される長期回帰を推定する。
本手法は,DMControlやMeta-Worldといった画像ベース連続制御タスクの事前作業よりも,より優れたサンプル効率と漸近性能を実現する。
コードとビデオの結果はhttps://nicklashansen.github.io/td-mpcで確認できる。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - STORM: Efficient Stochastic Transformer based World Models for
Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。
本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。
Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文 参考訳(メタデータ) (2023-10-14T16:42:02Z) - Simplified Temporal Consistency Reinforcement Learning [19.814047499837084]
本稿では,潜時整合性によって訓練された潜時力学モデルに依存する単純な表現学習手法が,高性能なRLには十分であることを示す。
提案手法は,モデルフリー手法を大きなマージンで上回り,モデルベース手法のサンプル効率を2.4倍高速にトレーニングしながら比較する。
論文 参考訳(メタデータ) (2023-06-15T19:37:43Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Model Predictive Control with Self-supervised Representation Learning [13.225264876433528]
本稿では,TD-MPCフレームワーク内での再構成機能の利用を提案する。
提案した損失項の追加は、状態ベースタスクと画像ベースタスクの両方のパフォーマンス改善につながる。
論文 参考訳(メタデータ) (2023-04-14T16:02:04Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。