論文の概要: A Simple Decentralized Cross-Entropy Method
- arxiv url: http://arxiv.org/abs/2212.08235v1
- Date: Fri, 16 Dec 2022 02:00:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 16:24:47.166873
- Title: A Simple Decentralized Cross-Entropy Method
- Title(参考訳): 簡易分散型クロスエントロピー法
- Authors: Zichen Zhang, Jun Jin, Martin Jagersand, Jun Luo, Dale Schuurmans
- Abstract要約: CEM(Cross-Entropy Method)は、モデルベース強化学習(MBRL)における計画立案に一般的に用いられる。
このような集中的なアプローチは、CEMを局所最適に脆弱にし、サンプル効率を損なうことを示す。
本稿では,古典的CEMに対する単純かつ効果的な改善である分散CEM(DecentCEM)を提案する。
- 参考スコア(独自算出の注目度): 36.2672026448702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-Entropy Method (CEM) is commonly used for planning in model-based
reinforcement learning (MBRL) where a centralized approach is typically
utilized to update the sampling distribution based on only the top-$k$
operation's results on samples. In this paper, we show that such a centralized
approach makes CEM vulnerable to local optima, thus impairing its sample
efficiency. To tackle this issue, we propose Decentralized CEM (DecentCEM), a
simple but effective improvement over classical CEM, by using an ensemble of
CEM instances running independently from one another, and each performing a
local improvement of its own sampling distribution. We provide both theoretical
and empirical analysis to demonstrate the effectiveness of this simple
decentralized approach. We empirically show that, compared to the classical
centralized approach using either a single or even a mixture of Gaussian
distributions, our DecentCEM finds the global optimum much more consistently
thus improves the sample efficiency. Furthermore, we plug in our DecentCEM in
the planning problem of MBRL, and evaluate our approach in several continuous
control environments, with comparison to the state-of-art CEM based MBRL
approaches (PETS and POPLIN). Results show sample efficiency improvement by
simply replacing the classical CEM module with our DecentCEM module, while only
sacrificing a reasonable amount of computational cost. Lastly, we conduct
ablation studies for more in-depth analysis. Code is available at
https://github.com/vincentzhang/decentCEM
- Abstract(参考訳): CEM(Cross-Entropy Method)は、モデルベース強化学習(MBRL)において、通常、サンプルの上位$kの演算結果のみに基づいてサンプリング分布を更新するために集中的なアプローチが使用される。
本稿では,このような集中型アプローチにより,CEMが局所最適に脆弱になり,サンプル効率が損なわれることを示す。
この問題に対処するために,従来のCEMよりもシンプルで効果的な改良である分散CEM(DecentCEM)を提案し,それぞれが個別に実行されているCEMインスタンスのアンサンブルを用いて,それぞれのサンプリング分布を局所的に改善する。
この単純な分散的アプローチの有効性を実証するために、理論的および経験的分析の両方を提供する。
実験により,ガウス分布の単一あるいは混合を用いた古典的中央集権的アプローチと比較すると,大域的最適性はより一貫して得られ,サンプル効率が向上することを示した。
さらに,MBRLの計画問題にDecentCEMをプラグインし,現状のCEMベースのMBRLアプローチ(PETSとPOPLIN)と比較して,いくつかの連続制御環境における我々のアプローチを評価する。
その結果,従来のCEMモジュールをDecentCEMモジュールに置き換えることによるサンプル効率の向上が得られた。
最後に,より詳細な解析のためにアブレーション研究を行う。
コードはhttps://github.com/vincentzhang/decentCEMで入手できる。
関連論文リスト
- Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Iterated Denoising Energy Matching for Sampling from Boltzmann Densities [109.23137009609519]
反復Denoising Energy Matching (iDEM)
iDEMは,拡散型サンプリング装置から高モデル密度のサンプリング領域を (I) 交換し, (II) それらのサンプルをマッチング目的に使用した。
提案手法は,全測定値の最先端性能を達成し,2~5倍の速さでトレーニングを行う。
論文 参考訳(メタデータ) (2024-02-09T01:11:23Z) - CoVO-MPC: Theoretical Analysis of Sampling-based MPC and Optimal
Covariance Design [8.943418808959494]
我々は,広く使用されているサンプリングベースモデル予測経路積分制御(MPPI)法の収束特性を特徴付ける。
時間変動LQRシステムをカバーする2次最適化では,MPPIは少なくとも線形収束率を満足することを示す。
我々の理論解析は、サンプリングに基づく新しいMPCアルゴリズム、CoVo-MPCに直結する。
実証的には、CoVo-MPCはシミュレーションと現実世界のクワッドアジャイルコントロールの両方で標準MPPIを43~54%上回っている。
論文 参考訳(メタデータ) (2024-01-14T21:10:59Z) - Transferable Deep Clustering Model [14.073783373395196]
本稿では,データサンプルの分布に応じてクラスタセントロイドを自動的に適応できる,転送可能な新しいディープクラスタリングモデルを提案する。
提案手法では, 試料との関係を計測することで, センチロイドを適応できる新しい注意型モジュールを提案する。
合成および実世界の両方のデータセットに対する実験結果から,提案した移動学習フレームワークの有効性と有効性を示す。
論文 参考訳(メタデータ) (2023-10-07T23:35:17Z) - Learning Energy-Based Models by Cooperative Diffusion Recovery Likelihood [64.95663299945171]
高次元データに基づくエネルギーベースモデル(EBM)の訓練は、困難かつ時間を要する可能性がある。
EBMと、GANや拡散モデルのような他の生成フレームワークとの間には、サンプル品質に顕著なギャップがある。
本研究では,協調拡散回復可能性 (CDRL) を提案する。
論文 参考訳(メタデータ) (2023-09-10T22:05:24Z) - Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control
via Sample Multiple Reuse [28.29966904455002]
固定されたサンプルバッチを複数回更新することで、外部のRLエージェントをトレーニングすることを提案する。
我々は,本手法のサンプル多重再利用(SMR)を命名し,SMRを用いたQ-ラーニングの特性を示す。
SMRは、評価されたタスクのほとんどにわたって、ベースメソッドのサンプル効率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-05-29T03:25:22Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Sampling with Mollified Interaction Energy Descent [57.00583139477843]
モーフィファイド相互作用エネルギー降下(MIED)と呼ばれる新しい最適化に基づくサンプリング手法を提案する。
MIEDは、モル化相互作用エネルギー(MIE)と呼ばれる確率測度に関する新しいクラスのエネルギーを最小化する
我々は,制約のないサンプリング問題に対して,我々のアルゴリズムがSVGDのような既存の粒子ベースアルゴリズムと同等に動作することを示す。
論文 参考訳(メタデータ) (2022-10-24T16:54:18Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Distributionally Robust Federated Averaging [19.875176871167966]
適応サンプリングを用いた堅牢な学習周期平均化のためのコミュニケーション効率の高い分散アルゴリズムを提案する。
我々は、フェデレーション学習環境における理論的結果に関する実験的証拠を裏付ける。
論文 参考訳(メタデータ) (2021-02-25T03:32:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。