Fugu-MT 論文翻訳(概要): CEM-GD: Cross-Entropy Method with Gradient Descent Planner for Model-Based Reinforcement Learning

論文の概要: CEM-GD: Cross-Entropy Method with Gradient Descent Planner for Model-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2112.07746v1
Date: Tue, 14 Dec 2021 21:11:27 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-16 13:57:44.844883
Title: CEM-GD: Cross-Entropy Method with Gradient Descent Planner for Model-Based Reinforcement Learning
Title（参考訳）: CEM-GD:モデルベース強化学習のための勾配Descent Plannerを用いたクロスエントロピー手法
Authors: Kevin Huang, Sahin Lale, Ugo Rosolia, Yuanyuan Shi, Anima Anandkumar
Abstract要約: クロスエントロピー法(CEM)と一階法を組み合わせた新しいプランナを提案する。計画問題の次元性が増加するにつれて,CEM-GDは一定数のサンプルを用いて望ましい性能を維持していることを示す。
参考スコア（独自算出の注目度）: 41.233656743112185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current state-of-the-art model-based reinforcement learning algorithms use trajectory sampling methods, such as the Cross-Entropy Method (CEM), for planning in continuous control settings. These zeroth-order optimizers require sampling a large number of trajectory rollouts to select an optimal action, which scales poorly for large prediction horizons or high dimensional action spaces. First-order methods that use the gradients of the rewards with respect to the actions as an update can mitigate this issue, but suffer from local optima due to the non-convex optimization landscape. To overcome these issues and achieve the best of both worlds, we propose a novel planner, Cross-Entropy Method with Gradient Descent (CEM-GD), that combines first-order methods with CEM. At the beginning of execution, CEM-GD uses CEM to sample a significant amount of trajectory rollouts to explore the optimization landscape and avoid poor local minima. It then uses the top trajectories as initialization for gradient descent and applies gradient updates to each of these trajectories to find the optimal action sequence. At each subsequent time step, however, CEM-GD samples much fewer trajectories from CEM before applying gradient updates. We show that as the dimensionality of the planning problem increases, CEM-GD maintains desirable performance with a constant small number of samples by using the gradient information, while avoiding local optima using initially well-sampled trajectories. Furthermore, CEM-GD achieves better performance than CEM on a variety of continuous control benchmarks in MuJoCo with 100x fewer samples per time step, resulting in around 25% less computation time and 10% less memory usage. The implementation of CEM-GD is available at $\href{https://github.com/KevinHuang8/CEM-GD}{\text{https://github.com/KevinHuang8/CEM-GD}}$.
Abstract（参考訳）: 現在の最先端モデルに基づく強化学習アルゴリズムは、連続制御設定の計画にcross-entropy method(cem)などの軌道サンプリング法を使用している。これらのゼロ階オプティマイザは、多数の軌道のロールアウトをサンプリングして最適なアクションを選択する必要があり、これは大きな予測水平線や高次元のアクション空間に対して低スケールである。更新時のアクションに対する報酬の勾配を利用する一階述語法はこの問題を軽減することができるが、非凸最適化の状況のために局所最適化に悩まされる。これらの問題を克服し、両世界のベストを達成するために、一階法とcemを組み合わせた新しいプランナークロスエントロピー法(cem-gd)を提案する。実行開始時、CEM-GDはCEMを使用してかなりの量の軌道のロールアウトをサンプリングし、最適化ランドスケープを探索し、ローカルなミニマを避ける。次に、最上位の軌道を勾配降下の初期化として使用し、各軌道に勾配更新を適用して最適な作用列を求める。しかし、その後の各段階において、CEM-GDは勾配更新を適用する前に、CEMからの軌道をはるかに少なくサンプリングする。計画問題の次元が大きくなるにつれて,CEM-GDは勾配情報を用いて一定数のサンプルで望ましい性能を保ちつつ,当初はよくサンプリングされた軌道を用いた局所最適化を避けた。さらに、CEM-GDは、MuJoCoのさまざまな連続制御ベンチマークにおいて、時間ステップあたり100倍のサンプルを削減し、約25%の計算時間と10%のメモリ使用率でCEMよりも優れたパフォーマンスを実現している。 CEM-GDの実装は$\href{https://github.com/KevinHuang8/CEM-GD}{\text{https://github.com/KevinHuang8/CEM-GD}}$で利用可能である。

関連論文リスト

Psi-Sampler: Initial Particle Sampling for SMC-Based Inference-Time Reward Alignment in Score Models [10.542645300983878]
$Psi$-Samplerは、pCNLベースの初期粒子サンプリングを組み込んだSMCベースのフレームワークである。スコアベース生成モデルとの推論時間報酬アライメントは、大きな注目を集めている。
論文参考訳（メタデータ） (2025-06-02T05:02:33Z)
HyperFlow: Gradient-Free Emulation of Few-Shot Fine-Tuning [20.308785668386424]
計算勾配を使わずに勾配降下をエミュレートし,効率的なテスト時間適応を実現する手法を提案する。具体的には、通常の微分方程式(ODE)のオイラー離散化として勾配降下を定式化し、タスク条件ドリフトを予測するために補助ネットワークを訓練する。適応は単純な数値積分に還元され、補助ネットワークのわずかな前方通過しか必要としない。
論文参考訳（メタデータ） (2025-04-21T03:04:38Z)
Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Layer-wise Adaptive Step-Sizes for Stochastic First-Order Methods for Deep Learning [8.173034693197351]
深層学習における一階最適化のための新しい階層ごとの適応的なステップサイズ手順を提案する。提案手法は,ディープニューラルネットワーク(DNN)におけるヘシアン対角ブロックに含まれる層次曲率情報を用いて,各層に対する適応的なステップサイズ(LR)を算出する。数値実験により、SGDの運動量とAdamWと、提案した層ごとのステップサイズを組み合わせることで、効率的なLRスケジュールを選択できることが示されている。
論文参考訳（メタデータ） (2023-05-23T04:12:55Z)
Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文参考訳（メタデータ） (2022-11-27T19:50:37Z)
A Particle-based Sparse Gaussian Process Optimizer [5.672919245950197]
本稿では,下降の動的過程を利用した新しいスワム・スワムベースのフレームワークを提案する。このアプローチの最大の利点は、降下を決定する前に現在の状態についてより深い探索を行うことである。
論文参考訳（メタデータ） (2022-11-26T09:06:15Z)
Continuous-Time Meta-Learning with Forward Mode Differentiation [65.26189016950343]
本稿では,勾配ベクトル場の力学に適応するメタ学習アルゴリズムであるContinuous Meta-Learning(COMLN)を紹介する。学習プロセスをODEとして扱うことは、軌跡の長さが現在連続しているという顕著な利点を提供する。本稿では,実行時とメモリ使用時の効率を実証的に示すとともに,いくつかの画像分類問題に対して有効性を示す。
論文参考訳（メタデータ） (2022-03-02T22:35:58Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Self-Tuning Stochastic Optimization with Curvature-Aware Gradient Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。モデルに基づく手続きが雑音勾配設定に収束することを証明する。これは自己チューニング二次体を構築するための興味深いステップである。
論文参考訳（メタデータ） (2020-11-09T22:07:30Z)
AdaDGS: An adaptive black-box optimization method with a nonlocal directional Gaussian smoothing gradient [3.1546318469750196]
方向性ガウススムースティング(DGS)アプローチは(Zhang et al., 2020)で最近提案され、高次元ブラックボックス最適化のためにDGS勾配と呼ばれる真の非局所勾配を定義するために使用された。 DGSグラデーションを用いた簡易かつ創発的かつ効率的な最適化手法を提案し,超パラメータ微調整の必要性を排除した。
論文参考訳（メタデータ） (2020-11-03T21:20:25Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
Model-Predictive Control via Cross-Entropy and Gradient-Based Optimization [26.497575737219794]
クロスエントロピー法(クロスエントロピーほう、CEM)は、集団に基づく一連の行動計画の最適化手法である。そこで本研究では,CEMと勾配降下ステップをインターリーブして動作シーケンスを最適化することで,この問題を解決する手法を提案する。本実験は, 高次元の作用空間においても, 提案したハイブリッドアプローチのより高速な収束性を示す。
論文参考訳（メタデータ） (2020-04-19T03:54:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。