論文の概要: Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2012.05909v2
- Date: Tue, 13 Apr 2021 18:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 18:24:28.370456
- Title: Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning
- Title(参考訳): 効率的強化学習のためのmpcと値関数近似のブレンド
- Authors: Mohak Bhardwaj, Sanjiban Choudhury, Byron Boots
- Abstract要約: モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
- 参考スコア(独自算出の注目度): 42.429730406277315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-Predictive Control (MPC) is a powerful tool for controlling complex,
real-world systems that uses a model to make predictions about future behavior.
For each state encountered, MPC solves an online optimization problem to choose
a control action that will minimize future cost. This is a surprisingly
effective strategy, but real-time performance requirements warrant the use of
simple models. If the model is not sufficiently accurate, then the resulting
controller can be biased, limiting performance. We present a framework for
improving on MPC with model-free reinforcement learning (RL). The key insight
is to view MPC as constructing a series of local Q-function approximations. We
show that by using a parameter $\lambda$, similar to the trace decay parameter
in TD($\lambda$), we can systematically trade-off learned value estimates
against the local Q-function approximations. We present a theoretical analysis
that shows how error from inaccurate models in MPC and value function
estimation in RL can be balanced. We further propose an algorithm that changes
$\lambda$ over time to reduce the dependence on MPC as our estimates of the
value function improve, and test the efficacy our approach on challenging
high-dimensional manipulation tasks with biased models in simulation. We
demonstrate that our approach can obtain performance comparable with MPC with
access to true dynamics even under severe model bias and is more sample
efficient as compared to model-free RL.
- Abstract(参考訳): モデル予測制御(MPC)は、モデルを用いて将来の行動を予測する複雑な実世界のシステムを制御する強力なツールである。
遭遇した各状態について、mpcはオンライン最適化問題を解決し、将来のコストを最小化する制御アクションを選択する。
これは驚くほど効果的な戦略ですが、リアルタイムのパフォーマンス要求は単純なモデルの使用を保証します。
モデルが十分正確でない場合、結果のコントローラはバイアスを負い、性能が制限される。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
鍵となる洞察は、MPCを一連の局所的なQ関数近似の構築と見なすことである。
td($\lambda$)のトレース減衰パラメータに似たパラメータ$\lambda$を使用することで、局所q関数近似に対する学習値の推定を体系的にトレードオフできることを示す。
本稿では,MPCにおける不正確なモデルからの誤差とRLにおける値関数推定のバランスを示す理論的解析を行う。
さらに、値関数の見積もりが改善するにつれて、MPCへの依存を減らすために、時間とともに$\lambda$を変更するアルゴリズムを提案し、シミュレーションにおけるバイアスモデルを用いた高次元操作タスクへのアプローチの有効性を検証した。
提案手法は,モデルバイアスの厳しい場合であっても真の力学にアクセスでき,モデルフリーのRLに比べてより標本効率がよいMPCに匹敵する性能が得られることを示す。
関連論文リスト
- Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Learning to Optimize in Model Predictive Control [36.82905770866734]
サンプリングベースのモデル予測制御(MPC)は、非滑らかなダイナミクスとコスト関数を推論できる柔軟な制御フレームワークである。
これはサンプリングベースのMPCにおいて特に有用であり,サンプルの数を最小化したいと願う場合が多い。
制御分布をより効果的に更新する方法を学習することで,このノイズと競合できることを示す。
論文 参考訳(メタデータ) (2022-12-05T21:20:10Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - On Effective Scheduling of Model-based Reinforcement Learning [53.027698625496015]
実データ比率を自動的にスケジュールするAutoMBPOというフレームワークを提案する。
本稿ではまず,政策訓練における実データの役割を理論的に分析し,実際のデータの比率を徐々に高めれば,より優れた性能が得られることを示唆する。
論文 参考訳(メタデータ) (2021-11-16T15:24:59Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。