論文の概要: Active Learning of Markov Decision Processes using Baum-Welch algorithm
(Extended)
- arxiv url: http://arxiv.org/abs/2110.03014v1
- Date: Wed, 6 Oct 2021 18:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-09 12:27:27.402879
- Title: Active Learning of Markov Decision Processes using Baum-Welch algorithm
(Extended)
- Title(参考訳): baum-welchアルゴリズムを用いたマルコフ決定過程のアクティブ学習(拡張)
- Authors: Giovanni Bacci, Anna Ing\'olfsd\'ottir, Kim Larsen, Rapha\"el
Reynouard
- Abstract要約: 本稿では,マルコフ決定過程とマルコフ連鎖を学習するためのBaum-Welchアルゴリズムを再検討し,適応する。
本研究では,本手法を最先端のツールと実証的に比較し,提案手法が正確なモデルを得るために必要な観測回数を大幅に削減できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cyber-physical systems (CPSs) are naturally modelled as reactive systems with
nondeterministic and probabilistic dynamics. Model-based verification
techniques have proved effective in the deployment of safety-critical CPSs.
Central for a successful application of such techniques is the construction of
an accurate formal model for the system. Manual construction can be a
resource-demanding and error-prone process, thus motivating the design of
automata learning algorithms to synthesise a system model from observed system
behaviours.
This paper revisits and adapts the classic Baum-Welch algorithm for learning
Markov decision processes and Markov chains. For the case of MDPs, which
typically demand more observations, we present a model-based active learning
sampling strategy that choses examples which are most informative w.r.t.\ the
current model hypothesis. We empirically compare our approach with
state-of-the-art tools and demonstrate that the proposed active learning
procedure can significantly reduce the number of observations required to
obtain accurate models.
- Abstract(参考訳): サイバー物理システム(cpss)は、非決定論的かつ確率的ダイナミクスを持つリアクティブシステムとして自然にモデル化される。
モデルに基づく検証技術は安全クリティカルなCPSの展開に有効であることが証明された。
このような手法をうまく応用するための中心は、システムのための正確な形式モデルの構築である。
手動構築は、リソースの要求とエラーを起こしやすいプロセスであり、自動学習アルゴリズムの設計を動機付け、観測されたシステムの振る舞いからシステムモデルを合成する。
本稿では,マルコフ決定過程とマルコフ連鎖を学習するためのBaum-Welchアルゴリズムを再検討し,適応する。
通常、より多くの観測を必要とするMDPの場合、現在のモデル仮説の最も有益な例を選択するモデルベースのアクティブラーニングサンプリング戦略を示す。
本手法を最先端ツールと比較し,提案手法が正確なモデルを得るのに必要な観察回数を大幅に削減できることを実証する。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Model-based Policy Optimization using Symbolic World Model [46.42871544295734]
ロボット工学における学習に基づく制御手法の適用は、大きな課題を呈している。
1つは、モデルなし強化学習アルゴリズムがサンプル効率の低い観測データを使用することである。
シンボリック回帰によって生成されるシンボリック表現による遷移ダイナミクスの近似を提案する。
論文 参考訳(メタデータ) (2024-07-18T13:49:21Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Partitioned Active Learning for Heterogeneous Systems [5.331649110169476]
本稿では,pgp(partitioned gp)モデルに基づく分断アクティブラーニング戦略を提案する。
グローバル検索は、アクティブラーニングの探索の側面を加速する。
ローカル検索は、ローカルGPモデルによって誘導されるアクティブ学習基準を利用する。
論文 参考訳(メタデータ) (2021-05-14T02:05:31Z) - Model-Based Deep Learning [155.063817656602]
信号処理、通信、制御は伝統的に古典的な統計モデリング技術に依存している。
ディープニューラルネットワーク(DNN)は、データから操作を学ぶ汎用アーキテクチャを使用し、優れたパフォーマンスを示す。
私たちは、原理数学モデルとデータ駆動システムを組み合わせて両方のアプローチの利点を享受するハイブリッド技術に興味があります。
論文 参考訳(メタデータ) (2020-12-15T16:29:49Z) - Prediction-Centric Learning of Independent Cascade Dynamics from Partial
Observations [13.680949377743392]
本稿では,このモデルから生成された予測が正確であるような拡散モデルの学習の問題に対処する。
本稿では,スケーラブルな動的メッセージパッシング手法に基づく計算効率のよいアルゴリズムを提案する。
学習モデルからの抽出可能な推論は,元のモデルと比較して限界確率の予測精度がよいことを示す。
論文 参考訳(メタデータ) (2020-07-13T17:58:21Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Online learning of both state and dynamics using ensemble Kalman filters [0.0]
本稿では,オンライン上での動的および状態の双方,すなわち推定値を常に更新する可能性について検討する。
我々は,(i)グローバルなEnKF,(i)ローカルなEnKF,(iii)反復的なEnKFを通じて,オンラインのダイナミクスを学習することの意味を考察する。
次に,1次元,1スケール,2スケールのカオスロレンツモデルを用いて,これらの手法の有効性を数値的に検証し,精度を評価する。
論文 参考訳(メタデータ) (2020-06-06T13:19:26Z) - Model-based Multi-Agent Reinforcement Learning with Cooperative
Prioritized Sweeping [4.5497948012757865]
本稿では,新しいモデルに基づく強化学習アルゴリズム,Cooperative Prioritized Sweepingを提案する。
このアルゴリズムは、値関数を近似するために因子化を利用することにより、大きな問題に対するサンプル効率の学習を可能にする。
我々の手法は、よく知られたSysAdminベンチマークとランダム化環境の両方において、最先端の協調的なQ-ラーニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2020-01-15T19:13:44Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。