論文の概要: Model-free Reinforcement Learning for Branching Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2106.06777v1
- Date: Sat, 12 Jun 2021 13:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:31:38.591220
- Title: Model-free Reinforcement Learning for Branching Markov Decision
Processes
- Title(参考訳): 分岐マルコフ決定過程に対するモデルフリー強化学習
- Authors: Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh
Trivedi, Dominik Wojtczak
- Abstract要約: 分岐マルコフ決定過程の最適制御のための強化学習について検討する。
状態 (discrete-time) BMC は、他のエンティティを生成している間にペイオフを生成するエンティティの集合である。
モデルフリー強化学習手法を一般化し、未知のBMDPの最適制御戦略をその極限で計算する。
- 参考スコア(独自算出の注目度): 6.402126624793774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study reinforcement learning for the optimal control of Branching Markov
Decision Processes (BMDPs), a natural extension of (multitype) Branching Markov
Chains (BMCs). The state of a (discrete-time) BMCs is a collection of entities
of various types that, while spawning other entities, generate a payoff. In
comparison with BMCs, where the evolution of a each entity of the same type
follows the same probabilistic pattern, BMDPs allow an external controller to
pick from a range of options. This permits us to study the best/worst behaviour
of the system. We generalise model-free reinforcement learning techniques to
compute an optimal control strategy of an unknown BMDP in the limit. We present
results of an implementation that demonstrate the practicality of the approach.
- Abstract(参考訳): 分岐マルコフ連鎖(BMC)の自然な拡張である分岐マルコフ決定過程(BMDP)の最適制御のための強化学習について検討した。
状態 (discrete-time) BMC は、様々なタイプのエンティティの集まりであり、他のエンティティを生成しながら、ペイオフを生成する。
同一タイプの各エンティティの進化が同じ確率パターンに従うBMCと比較して、BMDPは外部コントローラが様々な選択肢から選択できる。
これにより、システムのベスト/ワーストな振る舞いを研究できます。
モデルフリー強化学習手法を一般化し、未知のBMDPの最適制御戦略をその極限で計算する。
提案手法の実用性を示す実装の結果について述べる。
関連論文リスト
- Stochastic Bilevel Optimization with Lower-Level Contextual Markov Decision Processes [42.22085862132403]
本稿では,2段階決定モデルである文脈マルコフ決定プロセス(BO-CMDP)を用いた二段階最適化を提案する。
BO-CMDP は Stackelberg Game と見ることができ、リーダーとリーダーのコントロールを超えたランダムなコンテキストが(多く) MDP のセットアップを決定する。
本稿では,BO-CMDP の解法として Hyper Policy Descent (HPGD) アルゴリズムを提案し,その収束性を示す。
論文 参考訳(メタデータ) (2024-06-03T17:54:39Z) - A Deep Learning Method for Comparing Bayesian Hierarchical Models [1.6736940231069393]
本稿では,任意の階層モデルに対してベイズモデルの比較を行う深層学習手法を提案する。
提案手法は,任意の実データアプリケーションに先立って,後続モデル確率の効率的な再推定と高速な性能検証を可能にする。
論文 参考訳(メタデータ) (2023-01-27T17:27:07Z) - Policy Gradient With Serial Markov Chain Reasoning [10.152838128195468]
我々は,強化学習における意思決定を反復的推論プロセスとして行う新しい枠組みを導入する。
従来のRLには本質的に欠落しているいくつかの有用な特性があることを示す。
提案アルゴリズムは,人気の高いMujocoおよびDeepMind Controlベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-13T06:15:29Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - An Analysis of Model-Based Reinforcement Learning From Abstracted
Observations [24.964038353043918]
オンラインで収集したサンプル(例えば実世界のサンプル)とモデルベース強化学習(MBRL)の結果の依存関係を抽象化することで実現可能であることを示す。
我々はこの問題を克服するためにマルティンガレの濃度不等式を使用できることを示す。
原型的MBRLアルゴリズムであるR-MAXと抽象化を組み合わせることで、モデルベースの「抽象観測からのRL」に対する最初の性能保証を生成する。
論文 参考訳(メタデータ) (2022-08-30T17:19:26Z) - Efficient Reinforcement Learning in Block MDPs: A Model-free
Representation Learning Approach [73.62265030773652]
ブロック構造力学を用いたマルコフ決定過程における効率的な強化学習アルゴリズムであるBRIEEを提案する。
BRIEEは、潜伏状態の発見、探索、搾取を相互にインターリーブし、ほぼ最適な政策を確実に学べる。
我々は、BRIEEが最先端のBlock MDPアルゴリズムであるHOMER RLや、リッチ・オブザーブレーションの組み合わせロック問題に挑戦する経験的ベースラインよりも、より標本効率が高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T19:47:55Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Adversarial Robustness Verification and Attack Synthesis in Stochastic
Systems [8.833548357664606]
我々は、離散時間マルコフ連鎖(DTMC)として定義されるシステムにおける対向的堅牢性のための公式な枠組みを開発する。
我々は、元の遷移確率の周囲に$varepsilon$ボールで制約された、敵がシステム遷移を摂動できる脅威モデルのクラスを概説する。
論文 参考訳(メタデータ) (2021-10-05T15:52:47Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Stein Variational Model Predictive Control [130.60527864489168]
不確実性の下での意思決定は、現実の自律システムにとって極めて重要である。
モデル予測制御 (MPC) 法は, 複雑な分布を扱う場合, 適用範囲が限られている。
この枠組みが、挑戦的で非最適な制御問題における計画の成功に繋がることを示す。
論文 参考訳(メタデータ) (2020-11-15T22:36:59Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。