Fugu-MT 論文翻訳(概要): SMX: Sequential Monte Carlo Planning for Expert Iteration

論文の概要: SMX: Sequential Monte Carlo Planning for Expert Iteration

arxiv url: http://arxiv.org/abs/2402.07963v1
Date: Mon, 12 Feb 2024 10:32:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-14 18:08:05.379342
Title: SMX: Sequential Monte Carlo Planning for Expert Iteration
Title（参考訳）: smx: 専門家イテレーションのための逐次モンテカルロ計画
Authors: Matthew V Macfarlane, Edan Toledo, Donal Byrne, Siddarth Singh, Paul Duckworth, Alexandre Laterre
Abstract要約: 本稿では,スケーラブルなモンテカルロ法を用いて効率的な自己学習機構を構築するモデルベース計画アルゴリズムであるSMXを紹介する。 SMXはAlphaZeroと比較して統計的に顕著な性能向上を示している。
参考スコア（独自算出の注目度）: 41.99807739848283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing agents that can leverage planning abilities during their decision and learning processes is critical to the advancement of Artificial Intelligence. Recent works have demonstrated the effectiveness of combining tree-based search methods and self-play learning mechanisms. Yet, these methods typically face scaling challenges due to the sequential nature of their search. While practical engineering solutions can partly overcome this, they still demand extensive computational resources, which hinders their applicability. In this paper, we introduce SMX, a model-based planning algorithm that utilises scalable Sequential Monte Carlo methods to create an effective self-learning mechanism. Grounded in the theoretical framework of control as inference, SMX benefits from robust theoretical underpinnings. Its sampling-based search approach makes it adaptable to environments with both discrete and continuous action spaces. Furthermore, SMX allows for high parallelisation and can run on hardware accelerators to optimise computing efficiency. SMX demonstrates a statistically significant improvement in performance compared to AlphaZero, as well as demonstrating its performance as an improvement operator for a model-free policy, matching or exceeding top model-free methods across both continuous and discrete environments.
Abstract（参考訳）: 意思決定と学習過程における計画能力を活用するエージェントの開発は、人工知能の進歩に不可欠である。近年,木に基づく探索手法と自己再生学習機構を組み合わせる効果が実証されている。しかし、これらの手法は通常、検索のシーケンシャルな性質のため、スケーリングの課題に直面します。実用的なエンジニアリングソリューションは部分的にこれを克服できるが、それでも広範な計算資源を必要としており、適用性を妨げている。本稿では,スケーラブルなモンテカルロ法を用いて効率的な自己学習機構を構築するモデルベース計画アルゴリズムであるSMXを紹介する。推論としての制御の理論的な枠組みに基づくsmxは、ロバストな理論的基盤から恩恵を受ける。サンプリングベースの検索アプローチは、離散的および連続的なアクション空間の両方を持つ環境に適応する。さらに、SMXは高い並列化を可能にし、ハードウェアアクセラレータ上で実行することで計算効率を最適化することができる。 SMXは、AlphaZeroと比較して統計的に顕著な性能向上を示し、連続的および離散的な環境において、モデルフリーポリシー、マッチングまたはトップモデルフリーメソッドの改善演算子としての性能を示す。

関連論文リスト

Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
Smart Exploration in Reinforcement Learning using Bounded Uncertainty Models [0.0]
本稿では、事前モデル知識を用いて探索過程をガイドし、強化学習を高速化することを提案する。我々は,Q-函数の最適Q-函数への収束に関する理論的保証を,探索政策のクラスとして提案する。
論文参考訳（メタデータ） (2025-04-08T12:33:38Z)
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文参考訳（メタデータ） (2025-02-26T10:16:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning [5.09191791549438]
最近の研究は、主に決定論的なオフラインAtariとD4RLベンチマークにおいて、最先端の結果を達成した。本稿では,この楽観主義バイアスに対処する手法を提案する。シミュレーションにおいて,様々な自律運転タスクにおいて,提案手法の優れた性能を示す。
論文参考訳（メタデータ） (2022-07-21T04:12:48Z)
Critic Sequential Monte Carlo [15.596665321375298]
CriticSMCは、ソフトQ関数係数を持つシーケンシャルモンテカルロの新たな合成から構築された推論として計画する新しいアルゴリズムである。シミュレーションにおける自動運転車衝突回避実験は、計算労力に対する屈折の最小化の観点から、ベースラインに対する改善を実証する。
論文参考訳（メタデータ） (2022-05-30T23:14:24Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文参考訳（メタデータ） (2021-02-16T18:50:32Z)
Model-based Meta Reinforcement Learning using Graph Structured Surrogate Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文参考訳（メタデータ） (2021-02-16T17:21:55Z)
Meta Learning MPC using Finite-Dimensional Gaussian Process Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文参考訳（メタデータ） (2020-08-13T15:59:38Z)
Efficient Model-Based Reinforcement Learning through Optimistic Policy Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文参考訳（メタデータ） (2020-06-15T18:37:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。