論文の概要: SPO: Sequential Monte Carlo Policy Optimisation
- arxiv url: http://arxiv.org/abs/2402.07963v3
- Date: Thu, 31 Oct 2024 17:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:51.966654
- Title: SPO: Sequential Monte Carlo Policy Optimisation
- Title(参考訳): SPO: シークエンシャルなモンテカルロ政策最適化
- Authors: Matthew V Macfarlane, Edan Toledo, Donal Byrne, Paul Duckworth, Alexandre Laterre,
- Abstract要約: SPO:Sequential Monte Carlo Policy optimizationを紹介する。
我々は,SPOがロバストな政策改善と効率的なスケーリング特性を提供することを示した。
モデルフリーおよびモデルベースラインと比較して,統計的に有意な性能向上を示す。
- 参考スコア(独自算出の注目度): 41.52684912140086
- License:
- Abstract: Leveraging planning during learning and decision-making is central to the long-term development of intelligent agents. Recent works have successfully combined tree-based search methods and self-play learning mechanisms to this end. However, these methods typically face scaling challenges due to the sequential nature of their search. While practical engineering solutions can partly overcome this, they often result in a negative impact on performance. In this paper, we introduce SPO: Sequential Monte Carlo Policy Optimisation, a model-based reinforcement learning algorithm grounded within the Expectation Maximisation (EM) framework. We show that SPO provides robust policy improvement and efficient scaling properties. The sample-based search makes it directly applicable to both discrete and continuous action spaces without modifications. We demonstrate statistically significant improvements in performance relative to model-free and model-based baselines across both continuous and discrete environments. Furthermore, the parallel nature of SPO's search enables effective utilisation of hardware accelerators, yielding favourable scaling laws.
- Abstract(参考訳): 学習と意思決定における計画の活用は、知的エージェントの長期的な開発の中心である。
近年の研究では,木に基づく探索手法と自己学習機構を組み合わせることに成功している。
しかし、これらの手法は典型的には、探索のシーケンシャルな性質のため、スケーリングの課題に直面している。
実用的なエンジニアリングソリューションは部分的にこれを克服できるが、パフォーマンスに悪影響を及ぼすことが多い。
本稿では,SPO:Sequential Monte Carlo Policy Optimisationを紹介する。
我々は,SPOがロバストな政策改善と効率的なスケーリング特性を提供することを示した。
サンプルベースの探索は、変更することなく離散的かつ連続的なアクション空間に直接適用することができる。
連続環境および離散環境におけるモデルフリーベースラインおよびモデルベースベースラインと比較して,統計的に有意な性能向上を示す。
さらに、SPOの探索の並列性により、ハードウェアアクセラレータの有効活用が可能となり、好ましいスケーリング法則が得られる。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning [5.09191791549438]
最近の研究は、主に決定論的なオフラインAtariとD4RLベンチマークにおいて、最先端の結果を達成した。
本稿では,この楽観主義バイアスに対処する手法を提案する。
シミュレーションにおいて,様々な自律運転タスクにおいて,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-21T04:12:48Z) - Critic Sequential Monte Carlo [15.596665321375298]
CriticSMCは、ソフトQ関数係数を持つシーケンシャルモンテカルロの新たな合成から構築された推論として計画する新しいアルゴリズムである。
シミュレーションにおける自動運転車衝突回避実験は、計算労力に対する屈折の最小化の観点から、ベースラインに対する改善を実証する。
論文 参考訳(メタデータ) (2022-05-30T23:14:24Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Meta Learning MPC using Finite-Dimensional Gaussian Process
Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。
本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-13T15:59:38Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。