論文の概要: Formally-Sharp DAgger for MCTS: Lower-Latency Monte Carlo Tree Search
using Data Aggregation with Formal Methods
- arxiv url: http://arxiv.org/abs/2308.07738v1
- Date: Tue, 15 Aug 2023 12:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:03:16.102923
- Title: Formally-Sharp DAgger for MCTS: Lower-Latency Monte Carlo Tree Search
using Data Aggregation with Formal Methods
- Title(参考訳): MCTSのための形式的シャープDAgger:形式的手法によるデータ集約を用いた低レイテンシモンテカルロ木探索
- Authors: Debraj Chakraborty, Damien Busatto-Gaston, Jean-Fran\c{c}ois Raskin
and Guillermo A. P\'erez
- Abstract要約: 本研究では,モンテカルロ木探索 (MCTS) とディープラーニングを効率よく組み合わせて,高品質な回帰地平線政策を創出する方法について検討する。
モデルチェック手法を用いてMCTSアルゴリズムを誘導し,高品質な意思決定のオフラインサンプルを生成する。
これらのサンプルは、それらを生成するために使用されるポリシーを模倣するニューラルネットワークのトレーニングに使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how to efficiently combine formal methods, Monte Carlo Tree Search
(MCTS), and deep learning in order to produce high-quality receding horizon
policies in large Markov Decision processes (MDPs). In particular, we use
model-checking techniques to guide the MCTS algorithm in order to generate
offline samples of high-quality decisions on a representative set of states of
the MDP. Those samples can then be used to train a neural network that imitates
the policy used to generate them. This neural network can either be used as a
guide on a lower-latency MCTS online search, or alternatively be used as a
full-fledged policy when minimal latency is required. We use statistical model
checking to detect when additional samples are needed and to focus those
additional samples on configurations where the learnt neural network policy
differs from the (computationally-expensive) offline policy. We illustrate the
use of our method on MDPs that model the Frozen Lake and Pac-Man environments
-- two popular benchmarks to evaluate reinforcement-learning algorithms.
- Abstract(参考訳): 大規模マルコフ決定プロセス (mdps) において, 形式的手法, モンテカルロ木探索 (mcts) および深層学習を効率的に組み合わせ, 高品質な退行地平線政策を実現する方法について検討した。
特に,モデルチェック手法を用いてMCTSアルゴリズムを誘導し,MDPの代表的な状態に対する高品質な意思決定のオフラインサンプルを生成する。
これらのサンプルは、生成に使用するポリシを模倣したニューラルネットワークのトレーニングに使用することができる。
このニューラルネットワークは、低レイテンシのmctsオンライン検索のガイドとして使用できるか、あるいは最小のレイテンシを必要とする場合に、本格的なポリシとして使用できる。
統計的モデルチェックを使用して、追加のサンプルが必要なタイミングを検出し、学習したニューラルネットワークポリシと(計算的な)オフラインポリシが異なる設定にこれらの追加サンプルを集中する。
我々は,凍結湖環境とパックマン環境をモデル化したMDP(強化学習アルゴリズムの評価のための2つの人気のあるベンチマーク)に本手法を適用した。
関連論文リスト
- Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Model Predictive Control via On-Policy Imitation Learning [28.96122879515294]
我々は,データ駆動型モデル予測制御のための新しいサンプル複雑性結果と性能保証を開発する。
我々のアルゴリズムは制約付き線形MPCの構造を用いており、解析は明示的なMPC解の特性を用いて、最適性能を達成するのに必要なオンラインMPCトラジェクトリの数を理論的に制限する。
論文 参考訳(メタデータ) (2022-10-17T16:06:06Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - Bayesian graph convolutional neural networks via tempered MCMC [0.41998444721319217]
畳み込みニューラルネットワークのようなディープラーニングモデルは、画像やマルチメディアタスクに長い間適用されてきた。
最近では、グラフで表現できる非構造化データにもっと注意が払われている。
これらのタイプのデータは、健康と医学、ソーシャルネットワーク、および研究データリポジトリでよく見られます。
論文 参考訳(メタデータ) (2021-04-17T04:03:25Z) - Model-Based Safe Policy Search from Signal Temporal Logic Specifications
Using Recurrent Neural Networks [1.005130974691351]
本稿では,STL (Signal Temporal Logic) の仕様からコントローラを学習するためのポリシー探索手法を提案する。
システムモデルは未知であり、制御ポリシとともに学習される。
その結果,本手法は非常に少ないシステム実行で所定の仕様を満たせることが明らかとなり,オンライン制御に活用できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-03-29T20:21:55Z) - Bayes-Adaptive Deep Model-Based Policy Optimisation [4.675381958034012]
本稿では,モデル不確実性を捕捉し,サンプル効率のよいポリシ最適化を実現する,ベイズ型(深度)モデルベース強化学習法(RoMBRL)を提案する。
ベイズ適応マルコフ決定過程(BAMDP)としてモデルに基づく政策最適化問題を定式化することを提案する。
また,RoMBRLは,サンプルの複雑度やタスク性能の観点から,多くの困難な制御ベンチマークタスクにおいて,既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-29T21:17:25Z) - Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge
Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。
通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。
分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。
分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文 参考訳(メタデータ) (2020-10-02T10:41:59Z) - On Training and Evaluation of Neural Network Approaches for Model
Predictive Control [9.8918553325509]
本稿では,制約ニューラルネットワークを用いて実装されたモデル予測制御(MPC)のトレーニングと評価を行うフレームワークである。
モチベーションは、安全クリティカルフィードバック制御システムのリアルタイム最適化を、ニューラルネットワークと最適化層という形で学習されたマッピングに置き換えることである。
論文 参考訳(メタデータ) (2020-05-08T15:37:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。