論文の概要: SMX: Sequential Monte Carlo Planning for Expert Iteration
- arxiv url: http://arxiv.org/abs/2402.07963v1
- Date: Mon, 12 Feb 2024 10:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 18:08:05.379342
- Title: SMX: Sequential Monte Carlo Planning for Expert Iteration
- Title(参考訳): smx: 専門家イテレーションのための逐次モンテカルロ計画
- Authors: Matthew V Macfarlane, Edan Toledo, Donal Byrne, Siddarth Singh, Paul
Duckworth, Alexandre Laterre
- Abstract要約: 本稿では,スケーラブルなモンテカルロ法を用いて効率的な自己学習機構を構築するモデルベース計画アルゴリズムであるSMXを紹介する。
SMXはAlphaZeroと比較して統計的に顕著な性能向上を示している。
- 参考スコア(独自算出の注目度): 41.99807739848283
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing agents that can leverage planning abilities during their decision
and learning processes is critical to the advancement of Artificial
Intelligence. Recent works have demonstrated the effectiveness of combining
tree-based search methods and self-play learning mechanisms. Yet, these methods
typically face scaling challenges due to the sequential nature of their search.
While practical engineering solutions can partly overcome this, they still
demand extensive computational resources, which hinders their applicability. In
this paper, we introduce SMX, a model-based planning algorithm that utilises
scalable Sequential Monte Carlo methods to create an effective self-learning
mechanism. Grounded in the theoretical framework of control as inference, SMX
benefits from robust theoretical underpinnings. Its sampling-based search
approach makes it adaptable to environments with both discrete and continuous
action spaces. Furthermore, SMX allows for high parallelisation and can run on
hardware accelerators to optimise computing efficiency. SMX demonstrates a
statistically significant improvement in performance compared to AlphaZero, as
well as demonstrating its performance as an improvement operator for a
model-free policy, matching or exceeding top model-free methods across both
continuous and discrete environments.
- Abstract(参考訳): 意思決定と学習過程における計画能力を活用するエージェントの開発は、人工知能の進歩に不可欠である。
近年,木に基づく探索手法と自己再生学習機構を組み合わせる効果が実証されている。
しかし、これらの手法は通常、検索のシーケンシャルな性質のため、スケーリングの課題に直面します。
実用的なエンジニアリングソリューションは部分的にこれを克服できるが、それでも広範な計算資源を必要としており、適用性を妨げている。
本稿では,スケーラブルなモンテカルロ法を用いて効率的な自己学習機構を構築するモデルベース計画アルゴリズムであるSMXを紹介する。
推論としての制御の理論的な枠組みに基づくsmxは、ロバストな理論的基盤から恩恵を受ける。
サンプリングベースの検索アプローチは、離散的および連続的なアクション空間の両方を持つ環境に適応する。
さらに、SMXは高い並列化を可能にし、ハードウェアアクセラレータ上で実行することで計算効率を最適化することができる。
SMXは、AlphaZeroと比較して統計的に顕著な性能向上を示し、連続的および離散的な環境において、モデルフリーポリシー、マッチングまたはトップモデルフリーメソッドの改善演算子としての性能を示す。
関連論文リスト
- Learning Logic Specifications for Policy Guidance in POMDPs: an
Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。
我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。
ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文 参考訳(メタデータ) (2024-02-29T15:36:01Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - REX: Rapid Exploration and eXploitation for AI Agents [103.68453326880456]
本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための改良されたアプローチを提案する。
REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-07-18T04:26:33Z) - A Memetic Algorithm with Reinforcement Learning for Sociotechnical
Production Scheduling [0.0]
本稿では、フレキシブルジョブショップスケジューリング問題(DRC-FJSSP)に深層強化学習(DRL)を適用したメメティックアルゴリズムを提案する。
産業における研究プロジェクトから、フレキシブルマシン、フレキシブルなヒューマンワーカー、作業能力、セットアップと処理操作、材料到着時間、材料製造の請求書の並列タスク、シーケンス依存のセットアップ時間、人間と機械のコラボレーションにおける(一部)自動化タスクを検討する必要性を認識します。
論文 参考訳(メタデータ) (2022-12-21T11:24:32Z) - Critic Sequential Monte Carlo [15.596665321375298]
CriticSMCは、ソフトQ関数係数を持つシーケンシャルモンテカルロの新たな合成から構築された推論として計画する新しいアルゴリズムである。
シミュレーションにおける自動運転車衝突回避実験は、計算労力に対する屈折の最小化の観点から、ベースラインに対する改善を実証する。
論文 参考訳(メタデータ) (2022-05-30T23:14:24Z) - Geometric Deep Reinforcement Learning for Dynamic DAG Scheduling [8.14784681248878]
本稿では,現実的なスケジューリング問題を解決するための強化学習手法を提案する。
高性能コンピューティングコミュニティにおいて一般的に実行されるアルゴリズムであるColesky Factorizationに適用する。
我々のアルゴリズムは,アクター・クリティカル・アルゴリズム (A2C) と組み合わせてグラフニューラルネットワークを用いて,問題の適応表現をオンザフライで構築する。
論文 参考訳(メタデータ) (2020-11-09T10:57:21Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z) - Intelligent and Reconfigurable Architecture for KL Divergence Based
Online Machine Learning Algorithm [0.0]
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
論文 参考訳(メタデータ) (2020-02-18T16:39:57Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。