論文の概要: SMX: Sequential Monte Carlo Planning for Expert Iteration
- arxiv url: http://arxiv.org/abs/2402.07963v1
- Date: Mon, 12 Feb 2024 10:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:08:05.379342
- Title: SMX: Sequential Monte Carlo Planning for Expert Iteration
- Title(参考訳): smx: 専門家イテレーションのための逐次モンテカルロ計画
- Authors: Matthew V Macfarlane, Edan Toledo, Donal Byrne, Siddarth Singh, Paul
Duckworth, Alexandre Laterre
- Abstract要約: 本稿では,スケーラブルなモンテカルロ法を用いて効率的な自己学習機構を構築するモデルベース計画アルゴリズムであるSMXを紹介する。
SMXはAlphaZeroと比較して統計的に顕著な性能向上を示している。
- 参考スコア(独自算出の注目度): 41.99807739848283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing agents that can leverage planning abilities during their decision
and learning processes is critical to the advancement of Artificial
Intelligence. Recent works have demonstrated the effectiveness of combining
tree-based search methods and self-play learning mechanisms. Yet, these methods
typically face scaling challenges due to the sequential nature of their search.
While practical engineering solutions can partly overcome this, they still
demand extensive computational resources, which hinders their applicability. In
this paper, we introduce SMX, a model-based planning algorithm that utilises
scalable Sequential Monte Carlo methods to create an effective self-learning
mechanism. Grounded in the theoretical framework of control as inference, SMX
benefits from robust theoretical underpinnings. Its sampling-based search
approach makes it adaptable to environments with both discrete and continuous
action spaces. Furthermore, SMX allows for high parallelisation and can run on
hardware accelerators to optimise computing efficiency. SMX demonstrates a
statistically significant improvement in performance compared to AlphaZero, as
well as demonstrating its performance as an improvement operator for a
model-free policy, matching or exceeding top model-free methods across both
continuous and discrete environments.
- Abstract(参考訳): 意思決定と学習過程における計画能力を活用するエージェントの開発は、人工知能の進歩に不可欠である。
近年,木に基づく探索手法と自己再生学習機構を組み合わせる効果が実証されている。
しかし、これらの手法は通常、検索のシーケンシャルな性質のため、スケーリングの課題に直面します。
実用的なエンジニアリングソリューションは部分的にこれを克服できるが、それでも広範な計算資源を必要としており、適用性を妨げている。
本稿では,スケーラブルなモンテカルロ法を用いて効率的な自己学習機構を構築するモデルベース計画アルゴリズムであるSMXを紹介する。
推論としての制御の理論的な枠組みに基づくsmxは、ロバストな理論的基盤から恩恵を受ける。
サンプリングベースの検索アプローチは、離散的および連続的なアクション空間の両方を持つ環境に適応する。
さらに、SMXは高い並列化を可能にし、ハードウェアアクセラレータ上で実行することで計算効率を最適化することができる。
SMXは、AlphaZeroと比較して統計的に顕著な性能向上を示し、連続的および離散的な環境において、モデルフリーポリシー、マッチングまたはトップモデルフリーメソッドの改善演算子としての性能を示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning [5.09191791549438]
最近の研究は、主に決定論的なオフラインAtariとD4RLベンチマークにおいて、最先端の結果を達成した。
本稿では,この楽観主義バイアスに対処する手法を提案する。
シミュレーションにおいて,様々な自律運転タスクにおいて,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-21T04:12:48Z) - Critic Sequential Monte Carlo [15.596665321375298]
CriticSMCは、ソフトQ関数係数を持つシーケンシャルモンテカルロの新たな合成から構築された推論として計画する新しいアルゴリズムである。
シミュレーションにおける自動運転車衝突回避実験は、計算労力に対する屈折の最小化の観点から、ベースラインに対する改善を実証する。
論文 参考訳(メタデータ) (2022-05-30T23:14:24Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Meta Learning MPC using Finite-Dimensional Gaussian Process
Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。
本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-13T15:59:38Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。