論文の概要: Model-Predictive Control via Cross-Entropy and Gradient-Based
Optimization
- arxiv url: http://arxiv.org/abs/2004.08763v1
- Date: Sun, 19 Apr 2020 03:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-11 23:47:17.951515
- Title: Model-Predictive Control via Cross-Entropy and Gradient-Based
Optimization
- Title(参考訳): クロスエントロピーと勾配に基づく最適化によるモデル予測制御
- Authors: Homanga Bharadhwaj, Kevin Xie, Florian Shkurti
- Abstract要約: クロスエントロピー法(クロスエントロピーほう、CEM)は、集団に基づく一連の行動計画の最適化手法である。
そこで本研究では,CEMと勾配降下ステップをインターリーブして動作シーケンスを最適化することで,この問題を解決する手法を提案する。
本実験は, 高次元の作用空間においても, 提案したハイブリッドアプローチのより高速な収束性を示す。
- 参考スコア(独自算出の注目度): 26.497575737219794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works in high-dimensional model-predictive control and model-based
reinforcement learning with learned dynamics and reward models have resorted to
population-based optimization methods, such as the Cross-Entropy Method (CEM),
for planning a sequence of actions. To decide on an action to take, CEM
conducts a search for the action sequence with the highest return according to
the dynamics model and reward. Action sequences are typically randomly sampled
from an unconditional Gaussian distribution and evaluated on the environment.
This distribution is iteratively updated towards action sequences with higher
returns. However, this planning method can be very inefficient, especially for
high-dimensional action spaces. An alternative line of approaches optimize
action sequences directly via gradient descent, but are prone to local optima.
We propose a method to solve this planning problem by interleaving CEM and
gradient descent steps in optimizing the action sequence. Our experiments show
faster convergence of the proposed hybrid approach, even for high-dimensional
action spaces, avoidance of local minima, and better or equal performance to
CEM. Code accompanying the paper is available here
https://github.com/homangab/gradcem.
- Abstract(参考訳): 近年の高次元モデル予測制御と学習力学と報酬モデルを用いたモデルベース強化学習の成果は、一連の行動計画のためのクロスエントロピー法(CEM)のような集団ベースの最適化手法に依拠している。
取るべきアクションを決定するために、CEMは、ダイナミクスモデルと報酬に応じて、最も高いリターンでアクションシーケンスを探索する。
アクションシーケンスは通常、無条件ガウス分布からランダムにサンプリングされ、環境上で評価される。
この分布は、高いリターンを持つアクションシーケンスに対して反復的に更新される。
しかし、この計画法は特に高次元の作用空間において非常に非効率である。
別のアプローチの1つの行は、勾配降下によって直接作用列を最適化するが、局所最適である。
そこで本研究では,CEMと勾配降下ステップをインターリーブして,アクションシーケンスの最適化を行う手法を提案する。
提案手法は,高次元作用空間においてもより高速に収束し,局所最小値の回避,CEMと同等の性能を示す。
この論文に付随するコードは、https://github.com/homangab/gradcemで入手できる。
関連論文リスト
- Covariance-Adaptive Sequential Black-box Optimization for Diffusion Targeted Generation [60.41803046775034]
ユーザのブラックボックス目標スコアのみを用いた拡散モデルを用いて,ユーザ優先のターゲット生成を行う方法を示す。
数値実験問題と目標誘導型3次元分子生成タスクの両方の実験により,より優れた目標値を得る上で,本手法の優れた性能が示された。
論文 参考訳(メタデータ) (2024-06-02T17:26:27Z) - Improving sample efficiency of high dimensional Bayesian optimization
with MCMC [7.241485121318798]
本稿ではマルコフ・チェイン・モンテカルロに基づく新しい手法を提案する。
提案アルゴリズムのMetropolis-HastingsとLangevin Dynamicsの両バージョンは、高次元逐次最適化および強化学習ベンチマークにおいて最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-01-05T05:56:42Z) - Stochastic Gradient Descent for Gaussian Processes Done Right [86.83678041846971]
emphdone right -- 最適化とカーネルコミュニティからの具体的な洞察を使用するという意味で -- が、勾配降下は非常に効果的であることを示している。
本稿では,直感的に設計を記述し,設計選択について説明する。
本手法は,分子結合親和性予測のための最先端グラフニューラルネットワークと同程度にガウス過程の回帰を配置する。
論文 参考訳(メタデータ) (2023-10-31T16:15:13Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Planning with Sequence Models through Iterative Energy Minimization [22.594413287842574]
本稿では,反復的エネルギー最小化の考え方に基づいて,計画とシーケンスモデルを統合するためのアプローチを提案する。
マスク付き言語モデルを用いて、行動軌跡上の暗黙のエネルギー関数を捕捉し、最小エネルギーの行動軌跡を見つけるための計画を立てる。
本稿は,BabyAIとAtari環境における最近のアプローチによるパフォーマンス向上について説明する。
論文 参考訳(メタデータ) (2023-03-28T17:53:22Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - Inferring Smooth Control: Monte Carlo Posterior Policy Iteration with
Gaussian Processes [39.411957858548355]
オンラインシーケンシャル推論を用いて,よりスムーズなモデル予測因子制御を実現する方法を示す。
提案手法は,いくつかのロボット制御タスクにおいて,従来の手法と一致し,スムーズさを確保しつつ評価する。
論文 参考訳(メタデータ) (2022-10-07T12:56:31Z) - CEM-GD: Cross-Entropy Method with Gradient Descent Planner for
Model-Based Reinforcement Learning [41.233656743112185]
クロスエントロピー法(CEM)と一階法を組み合わせた新しいプランナを提案する。
計画問題の次元性が増加するにつれて,CEM-GDは一定数のサンプルを用いて望ましい性能を維持していることを示す。
論文 参考訳(メタデータ) (2021-12-14T21:11:27Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。