論文の概要: Optimal Cost Design for Model Predictive Control
- arxiv url: http://arxiv.org/abs/2104.11353v1
- Date: Fri, 23 Apr 2021 00:00:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-26 12:53:50.207348
- Title: Optimal Cost Design for Model Predictive Control
- Title(参考訳): モデル予測制御のための最適コスト設計
- Authors: Avik Jain, Lawrence Chan, Daniel S. Brown, and Anca D. Dragan
- Abstract要約: 多くのロボティクスドメインは、計画に非モデル制御(MPC)を使用し、時間的地平線を減らし、最適化を行い、各ステップで再計画を行う。
本研究では, MPC を用いて最適化するコストは, タスクの真理コスト(端末コスト)と同等である,という一般的な仮定に挑戦する。
連続型MDPにおけるMPC計画ロボットの最適コストを設計できるゼロ階トラジェクトリに基づくアプローチを提案する。
- 参考スコア(独自算出の注目度): 30.86835688868485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many robotics domains use some form of nonconvex model predictive control
(MPC) for planning, which sets a reduced time horizon, performs trajectory
optimization, and replans at every step. The actual task typically requires a
much longer horizon than is computationally tractable, and is specified via a
cost function that cumulates over that full horizon. For instance, an
autonomous car may have a cost function that makes a desired trade-off between
efficiency, safety, and obeying traffic laws. In this work, we challenge the
common assumption that the cost we optimize using MPC should be the same as the
ground truth cost for the task (plus a terminal cost). MPC solvers can suffer
from short planning horizons, local optima, incorrect dynamics models, and,
importantly, fail to account for future replanning ability. Thus, we propose
that in many tasks it could be beneficial to purposefully choose a different
cost function for MPC to optimize: one that results in the MPC rollout having
low ground truth cost, rather than the MPC planned trajectory. We formalize
this as an optimal cost design problem, and propose a zeroth-order
optimization-based approach that enables us to design optimal costs for an MPC
planning robot in continuous MDPs. We test our approach in an autonomous
driving domain where we find costs different from the ground truth that
implicitly compensate for replanning, short horizon, incorrect dynamics models,
and local minima issues. As an example, the learned cost incentivizes MPC to
delay its decision until later, implicitly accounting for the fact that it will
get more information in the future and be able to make a better decision. Code
and videos available at https://sites.google.com/berkeley.edu/ocd-mpc/.
- Abstract(参考訳): 多くのロボティクス領域は、計画に何らかの形で非凸モデル予測制御(MPC)を使用し、時間的地平線を減らし、軌道最適化を行い、全てのステップで再計画を行う。
実際のタスクは通常、計算可能よりもはるかに長い水平線を必要とし、その全水平線上に累積するコスト関数によって指定される。
例えば、自動運転車は、効率性、安全性、そして交通法に従うことの間のトレードオフを希望するコスト関数を持つかもしれない。
本研究は, MPC を用いて最適化するコストは, タスクの真理コスト(および端末コスト)と同じである,という一般的な仮定に挑戦する。
MPCソルバは、短い計画の地平線、局所的な最適性、誤った力学モデルに悩まされ、そして重要なことに、将来の計画能力の考慮に失敗する。
したがって、多くのタスクにおいて、MPCの計画軌道ではなく、MPCのロールアウトコストが低いMPCロールアウトを最適化するための異なるコスト関数を意図的に選択することは有益である。
我々はこれを最適コスト設計問題として定式化し、連続MDPにおけるMPC計画ロボットの最適コストを設計するためのゼロ階最適化に基づくアプローチを提案する。
当社のアプローチは、リプラン、短い地平線、不正なダイナミクスモデル、ローカルなミニマ問題に対して暗黙的に補償する、基底的真理とは異なるコストを、自律運転領域でテストします。
例えば、学習コストはmpcに決定を後まで遅らせるようインセンティブを与え、将来より多くの情報を得ることができ、より良い決定ができるという事実を暗黙的に説明します。
コードとビデオはhttps://sites.google.com/berkeley.edu/ocd-mpc/で入手できる。
関連論文リスト
- Goal-Conditioned Terminal Value Estimation for Real-time and Multi-task Model Predictive Control [1.2687745030755995]
マルチタスクポリシー最適化を実現するために,目標条件付き端末値学習を用いたMPCフレームワークを開発した。
提案手法を2足歩行逆振りロボットモデルで評価し,目標条件付き終端値学習と上層軌道プランナーを組み合わせることで,リアルタイムに制御できることを確認する。
論文 参考訳(メタデータ) (2024-10-07T11:19:23Z) - Cost-Sensitive Multi-Fidelity Bayesian Optimization with Transfer of Learning Curve Extrapolation [55.75188191403343]
各ユーザが事前に定義した機能であるユーティリティを導入し,BOのコストと性能のトレードオフについて述べる。
このアルゴリズムをLCデータセット上で検証した結果,従来のマルチファイルBOや転送BOベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-05-28T07:38:39Z) - Deep Model Predictive Optimization [21.22047409735362]
ロボット工学における大きな課題は、現実世界で複雑でアジャイルな振る舞いを可能にする堅牢なポリシーを設計することである。
本稿では,MPC最適化アルゴリズムの内ループを体験を通して直接学習するDeep Model Predictive Optimization (DMPO)を提案する。
DMPOは、MFRLでトレーニングされたエンドツーエンドポリシーを19%削減することで、最高のMPCアルゴリズムを最大27%向上させることができる。
論文 参考訳(メタデータ) (2023-10-06T21:11:52Z) - Stochastic Bridges as Effective Regularizers for Parameter-Efficient
Tuning [98.27893964124829]
中間状態の正則化(ランニングコスト)としてブリッジを使用するPETの正則化を提案する。
潜在能力と能力を考えると、より洗練された正則化器はPET用に設計できると信じている。
論文 参考訳(メタデータ) (2023-05-28T09:22:44Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Towards Optimal VPU Compiler Cost Modeling by using Neural Networks to
Infer Hardware Performances [58.720142291102135]
VPUNN"は低レベルのタスクプロファイリングに基づいてトレーニングされたニューラルネットワークベースのコストモデルである。
これは、IntelのVPUプロセッサのラインにおける最先端のコストモデリングよりも一貫して優れている。
論文 参考訳(メタデータ) (2022-05-09T22:48:39Z) - Learning Model Predictive Controllers for Real-Time Ride-Hailing Vehicle
Relocation and Pricing Decisions [15.80796896560034]
大規模配車システムは、個々の要求レベルでのリアルタイムルーティングと、動的価格設定と車両の移動のためのマクロなモデル予測制御(MPC)の最適化を組み合わせることが多い。
本稿では、MPC最適化を学習することで、これらの計算課題に対処する。
結果の機械学習モデルは最適化プロキシとして機能し、その最適解を予測する。
論文 参考訳(メタデータ) (2021-11-05T00:52:15Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - The Value of Planning for Infinite-Horizon Model Predictive Control [0.0]
現代のプランナーが使用する中間データ構造を近似値関数として解釈する方法を示す。
この値関数はMPCによって直接使用できることを示し、実行時により効率的で回復力のある振る舞いをもたらす。
論文 参考訳(メタデータ) (2021-04-07T02:21:55Z) - Blending MPC & Value Function Approximation for Efficient Reinforcement
Learning [42.429730406277315]
モデル予測制御(MPC)は、複雑な実世界のシステムを制御する強力なツールである。
モデルフリー強化学習(RL)によるMPC改善のためのフレームワークを提案する。
我々は,本手法がmpcに匹敵する性能と真のダイナミクスを両立できることを示す。
論文 参考訳(メタデータ) (2020-12-10T11:32:01Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。