論文の概要: CEM-GD: Cross-Entropy Method with Gradient Descent Planner for
Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2112.07746v1
- Date: Tue, 14 Dec 2021 21:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 13:57:44.844883
- Title: CEM-GD: Cross-Entropy Method with Gradient Descent Planner for
Model-Based Reinforcement Learning
- Title(参考訳): CEM-GD:モデルベース強化学習のための勾配Descent Plannerを用いたクロスエントロピー手法
- Authors: Kevin Huang, Sahin Lale, Ugo Rosolia, Yuanyuan Shi, Anima Anandkumar
- Abstract要約: クロスエントロピー法(CEM)と一階法を組み合わせた新しいプランナを提案する。
計画問題の次元性が増加するにつれて,CEM-GDは一定数のサンプルを用いて望ましい性能を維持していることを示す。
- 参考スコア(独自算出の注目度): 41.233656743112185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art model-based reinforcement learning algorithms use
trajectory sampling methods, such as the Cross-Entropy Method (CEM), for
planning in continuous control settings. These zeroth-order optimizers require
sampling a large number of trajectory rollouts to select an optimal action,
which scales poorly for large prediction horizons or high dimensional action
spaces. First-order methods that use the gradients of the rewards with respect
to the actions as an update can mitigate this issue, but suffer from local
optima due to the non-convex optimization landscape. To overcome these issues
and achieve the best of both worlds, we propose a novel planner, Cross-Entropy
Method with Gradient Descent (CEM-GD), that combines first-order methods with
CEM. At the beginning of execution, CEM-GD uses CEM to sample a significant
amount of trajectory rollouts to explore the optimization landscape and avoid
poor local minima. It then uses the top trajectories as initialization for
gradient descent and applies gradient updates to each of these trajectories to
find the optimal action sequence. At each subsequent time step, however, CEM-GD
samples much fewer trajectories from CEM before applying gradient updates. We
show that as the dimensionality of the planning problem increases, CEM-GD
maintains desirable performance with a constant small number of samples by
using the gradient information, while avoiding local optima using initially
well-sampled trajectories. Furthermore, CEM-GD achieves better performance than
CEM on a variety of continuous control benchmarks in MuJoCo with 100x fewer
samples per time step, resulting in around 25% less computation time and 10%
less memory usage. The implementation of CEM-GD is available at
$\href{https://github.com/KevinHuang8/CEM-GD}{\text{https://github.com/KevinHuang8/CEM-GD}}$.
- Abstract(参考訳): 現在の最先端モデルに基づく強化学習アルゴリズムは、連続制御設定の計画にcross-entropy method(cem)などの軌道サンプリング法を使用している。
これらのゼロ階オプティマイザは、多数の軌道のロールアウトをサンプリングして最適なアクションを選択する必要があり、これは大きな予測水平線や高次元のアクション空間に対して低スケールである。
更新時のアクションに対する報酬の勾配を利用する一階述語法はこの問題を軽減することができるが、非凸最適化の状況のために局所最適化に悩まされる。
これらの問題を克服し、両世界のベストを達成するために、一階法とcemを組み合わせた新しいプランナークロスエントロピー法(cem-gd)を提案する。
実行開始時、CEM-GDはCEMを使用してかなりの量の軌道のロールアウトをサンプリングし、最適化ランドスケープを探索し、ローカルなミニマを避ける。
次に、最上位の軌道を勾配降下の初期化として使用し、各軌道に勾配更新を適用して最適な作用列を求める。
しかし、その後の各段階において、CEM-GDは勾配更新を適用する前に、CEMからの軌道をはるかに少なくサンプリングする。
計画問題の次元が大きくなるにつれて,CEM-GDは勾配情報を用いて一定数のサンプルで望ましい性能を保ちつつ,当初はよくサンプリングされた軌道を用いた局所最適化を避けた。
さらに、CEM-GDは、MuJoCoのさまざまな連続制御ベンチマークにおいて、時間ステップあたり100倍のサンプルを削減し、約25%の計算時間と10%のメモリ使用率でCEMよりも優れたパフォーマンスを実現している。
CEM-GDの実装は$\href{https://github.com/KevinHuang8/CEM-GD}{\text{https://github.com/KevinHuang8/CEM-GD}}$で利用可能である。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for
Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。
提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。
数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文 参考訳(メタデータ) (2023-05-23T04:12:55Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。
このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文 参考訳(メタデータ) (2022-11-26T09:06:15Z) - Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。
学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。
本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文 参考訳(メタデータ) (2022-03-02T22:35:58Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - AdaDGS: An adaptive black-box optimization method with a nonlocal
directional Gaussian smoothing gradient [3.1546318469750196]
方向性ガウススムースティング(DGS)アプローチは(Zhang et al., 2020)で最近提案され、高次元ブラックボックス最適化のためにDGS勾配と呼ばれる真の非局所勾配を定義するために使用された。
DGSグラデーションを用いた簡易かつ創発的かつ効率的な最適化手法を提案し,超パラメータ微調整の必要性を排除した。
論文 参考訳(メタデータ) (2020-11-03T21:20:25Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Model-Predictive Control via Cross-Entropy and Gradient-Based
Optimization [26.497575737219794]
クロスエントロピー法(クロスエントロピーほう、CEM)は、集団に基づく一連の行動計画の最適化手法である。
そこで本研究では,CEMと勾配降下ステップをインターリーブして動作シーケンスを最適化することで,この問題を解決する手法を提案する。
本実験は, 高次元の作用空間においても, 提案したハイブリッドアプローチのより高速な収束性を示す。
論文 参考訳(メタデータ) (2020-04-19T03:54:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。