論文の概要: Bregman Centroid Guided Cross-Entropy Method
- arxiv url: http://arxiv.org/abs/2506.02205v2
- Date: Mon, 30 Jun 2025 20:54:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 15:54:40.108936
- Title: Bregman Centroid Guided Cross-Entropy Method
- Title(参考訳): Bregman Centroid Guided Cross-Entropy Method
- Authors: Yuliang Gu, Hongpeng Cao, Marco Caccamo, Naira Hovakimyan,
- Abstract要約: 本稿では, アンサンブルCEMの軽量化を目的としたBregmanid Guided CEM(mathcalBC$-EvoCEM)を提案する。
Bregmanid Guided CEMは、CEMワーカー間でパフォーマンスの重み付けされたBregmanセントロイドを計算し、信頼領域内でサンプリングすることで、最も貢献の少ないものを更新する。
我々は、$textbf$mathcalBC$-EvoCEM$が標準のCEMパイプラインとシームレスに統合され、オーバーヘッドが無視できることを示した。
- 参考スコア(独自算出の注目度): 6.408943565801689
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Cross-Entropy Method (CEM) is a widely adopted trajectory optimizer in model-based reinforcement learning (MBRL), but its unimodal sampling strategy often leads to premature convergence in multimodal landscapes. In this work, we propose Bregman Centroid Guided CEM ($\mathcal{BC}$-EvoCEM), a lightweight enhancement to ensemble CEM that leverages $\textit{Bregman centroids}$ for principled information aggregation and diversity control. $\textbf{$\mathcal{BC}$-EvoCEM}$ computes a performance-weighted Bregman centroid across CEM workers and updates the least contributing ones by sampling within a trust region around the centroid. Leveraging the duality between Bregman divergences and exponential family distributions, we show that $\textbf{$\mathcal{BC}$-EvoCEM}$ integrates seamlessly into standard CEM pipelines with negligible overhead. Empirical results on synthetic benchmarks, a cluttered navigation task, and full MBRL pipelines demonstrate that $\textbf{$\mathcal{BC}$-EvoCEM}$ enhances both convergence and solution quality, providing a simple yet effective upgrade for CEM.
- Abstract(参考訳): CEM(Cross-Entropy Method)は、モデルベース強化学習(MBRL)において広く採用されている軌道最適化手法であるが、その単調サンプリング戦略はしばしば、マルチモーダルランドスケープにおける早期収束をもたらす。
本稿では,Bregman Centroid Guided CEM(\mathcal{BC}$-EvoCEM)を提案する。
$\textbf{$\mathcal{BC}$-EvoCEM}$は、CEMワーカー間でパフォーマンス重み付けされたBregmanセントロイドを計算し、セントロイド周辺の信頼領域内でサンプリングすることで、最も貢献の少ないものを更新する。
bf{$\mathcal{BC}$-EvoCEM}$が標準CEMパイプラインとシームレスに統合され、オーバーヘッドが無視できることを示す。
合成ベンチマーク、粗いナビゲーションタスク、完全なMBRLパイプラインに関する実証的な結果は、$\textbf{$\mathcal{BC}$-EvoCEM}$が収束性とソリューション品質の両方を高め、CEMの単純かつ効果的なアップグレードを提供することを示した。
関連論文リスト
- Sample Complexity of Distributionally Robust Average-Reward Reinforcement Learning [5.8191965840377735]
ほぼ最適サンプル複雑性を実現するアルゴリズムを2つ提案する。
両アルゴリズムが最適なポリシを推定するために,$widetildeOleft(|mathbfS||mathbfA| t_mathrmmix2varepsilon-2right)のサンプル複雑性が得られることを証明した。
これはDR平均逆強化学習における最初の有限サンプル収束保証である。
論文 参考訳(メタデータ) (2025-05-15T06:42:25Z) - Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - A View of the Certainty-Equivalence Method for PAC RL as an Application of the Trajectory Tree Method [5.238591085233903]
本稿では,CEMが実際にTTMの応用と見なされるという驚くべき発見に起因した理論的研究を提案する。
我々は,非定常MPPと定常MPPの双方に対して,CEMの試料複雑度上限を(3)改良した。
また, 有限ホライズン MDP に対する標本複雑性の低い値を示し, 非定常 MDP に対する上界の最小値最適性を確立する。
論文 参考訳(メタデータ) (2025-01-05T20:37:34Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - DFedADMM: Dual Constraints Controlled Model Inconsistency for
Decentralized Federated Learning [52.83811558753284]
分散学習(DFL)は、中央サーバーを捨て、分散通信ネットワークを確立する。
既存のDFL手法は依然として、局所的な矛盾と局所的な過度なオーバーフィッティングという2つの大きな課題に悩まされている。
論文 参考訳(メタデータ) (2023-08-16T11:22:36Z) - A Simple Decentralized Cross-Entropy Method [36.2672026448702]
CEM(Cross-Entropy Method)は、モデルベース強化学習(MBRL)における計画立案に一般的に用いられる。
このような集中的なアプローチは、CEMを局所最適に脆弱にし、サンプル効率を損なうことを示す。
本稿では,古典的CEMに対する単純かつ効果的な改善である分散CEM(DecentCEM)を提案する。
論文 参考訳(メタデータ) (2022-12-16T02:00:55Z) - What Are Bayesian Neural Network Posteriors Really Like? [63.950151520585024]
ハミルトニアンモンテカルロは、標準およびディープアンサンブルよりも大きな性能向上を達成できることを示す。
また,深部分布は標準SGLDとHMCに類似しており,標準変動推論に近いことが示された。
論文 参考訳(メタデータ) (2021-04-29T15:38:46Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z) - Non-asymptotic Convergence of Adam-type Reinforcement Learning
Algorithms under Markovian Sampling [56.394284787780364]
本稿では、ポリシー勾配(PG)と時間差(TD)学習の2つの基本RLアルゴリズムに対して、最初の理論的収束解析を行う。
一般の非線形関数近似の下では、PG-AMSGradは定常点の近傍に収束し、$mathcalO(log T/sqrtT)$である。
線形関数近似の下では、一定段階のTD-AMSGradは$mathcalO(log T/sqrtT)の速度で大域的最適化の近傍に収束する。
論文 参考訳(メタデータ) (2020-02-15T00:26:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。