論文の概要: The Value of Planning for Infinite-Horizon Model Predictive Control
- arxiv url: http://arxiv.org/abs/2104.02863v1
- Date: Wed, 7 Apr 2021 02:21:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 00:33:38.699455
- Title: The Value of Planning for Infinite-Horizon Model Predictive Control
- Title(参考訳): 無限水平モデル予測制御における計画の価値
- Authors: Nathan Hatch (1) and Byron Boots (1) ((1) University of Washington)
- Abstract要約: 現代のプランナーが使用する中間データ構造を近似値関数として解釈する方法を示す。
この値関数はMPCによって直接使用できることを示し、実行時により効率的で回復力のある振る舞いをもたらす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model Predictive Control (MPC) is a classic tool for optimal control of
complex, real-world systems. Although it has been successfully applied to a
wide range of challenging tasks in robotics, it is fundamentally limited by the
prediction horizon, which, if too short, will result in myopic decisions.
Recently, several papers have suggested using a learned value function as the
terminal cost for MPC. If the value function is accurate, it effectively allows
MPC to reason over an infinite horizon. Unfortunately, Reinforcement Learning
(RL) solutions to value function approximation can be difficult to realize for
robotics tasks. In this paper, we suggest a more efficient method for value
function approximation that applies to goal-directed problems, like reaching
and navigation. In these problems, MPC is often formulated to track a path or
trajectory returned by a planner. However, this strategy is brittle in that
unexpected perturbations to the robot will require replanning, which can be
costly at runtime. Instead, we show how the intermediate data structures used
by modern planners can be interpreted as an approximate value function. We show
that that this value function can be used by MPC directly, resulting in more
efficient and resilient behavior at runtime.
- Abstract(参考訳): Model Predictive Control (MPC) は、複雑な実世界のシステムの最適制御のための古典的なツールである。
ロボット工学における幅広い課題にうまく適用されているが、予測の地平線によって基本的に制限されており、短すぎると近視的な決定に繋がる。
近年,mpcの終端コストとして学習値関数を用いることが提案されている。
値関数が正しければ、mpcは無限の地平線上で推論することができる。
残念ながら、価値関数近似に対する強化学習(RL)ソリューションは、ロボット工学のタスクでは実現が難しい。
本稿では,到達やナビゲーションなどの目標指向問題に適用可能な,より効率的な値関数近似手法を提案する。
これらの問題において、MPCはしばしばプランナーによって返される経路や軌跡を追跡するために定式化される。
しかし、この戦略は、ロボットに対する予期せぬ摂動が、実行時にコストがかかるような再計画を必要とするため、脆弱である。
代わりに、現代のプランナーが使用する中間データ構造を近似値関数として解釈する方法を示す。
この値関数は直接MPCで使用することができ、実行時により効率的で弾力性のある振る舞いをもたらすことを示す。
関連論文リスト
- Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control [1.2687745030755995]
マルチタスクポリシー最適化を実現するために,目標条件付き端末値学習を用いたMPCフレームワークを開発した。
提案手法を2足歩行逆振りロボットモデルで評価し,目標条件付き終端値学習と上層軌道プランナーを組み合わせることで,リアルタイムに制御できることを確認する。
論文 参考訳(メタデータ) (2024-10-07T11:19:23Z) - On Building Myopic MPC Policies using Supervised Learning [0.0]
本稿では,教師付き学習を用いて最適値関数をオフラインで学習する代替戦略について考察する。
これは、非常に短い予測地平線を持つミオピックMPCのコスト・ツー・ゴー関数として使用できる。
論文 参考訳(メタデータ) (2024-01-23T08:08:09Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Optimal Cost Design for Model Predictive Control [30.86835688868485]
多くのロボティクスドメインは、計画に非モデル制御(MPC)を使用し、時間的地平線を減らし、最適化を行い、各ステップで再計画を行う。
本研究では, MPC を用いて最適化するコストは, タスクの真理コスト(端末コスト)と同等である,という一般的な仮定に挑戦する。
連続型MDPにおけるMPC計画ロボットの最適コストを設計できるゼロ階トラジェクトリに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-23T00:00:58Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。