論文の概要: Bayesian Policy Search for Stochastic Domains
- arxiv url: http://arxiv.org/abs/2010.00284v1
- Date: Thu, 1 Oct 2020 10:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:27:21.021269
- Title: Bayesian Policy Search for Stochastic Domains
- Title(参考訳): 確率領域に対するベイズ政策探索
- Authors: David Tolpin, Yuan Zhou, Hongseok Yang
- Abstract要約: 我々は、ドメイン内のポリシー探索の確率的プログラムはネスト条件付けを含むべきであると論じる。
より単純で汎用的な推論アルゴリズムにもかかわらず、類似した品質のポリシーが学習されていることを示す。
- 参考スコア(独自算出の注目度): 18.971852464650144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI planning can be cast as inference in probabilistic models, and
probabilistic programming was shown to be capable of policy search in partially
observable domains. Prior work introduces policy search through Markov chain
Monte Carlo in deterministic domains, as well as adapts black-box variational
inference to stochastic domains, however not in the strictly Bayesian sense. In
this work, we cast policy search in stochastic domains as a Bayesian inference
problem and provide a scheme for encoding such problems as nested probabilistic
programs. We argue that probabilistic programs for policy search in stochastic
domains should involve nested conditioning, and provide an adaption of
Lightweight Metropolis-Hastings (LMH) for robust inference in such programs. We
apply the proposed scheme to stochastic domains and show that policies of
similar quality are learned, despite a simpler and more general inference
algorithm. We believe that the proposed variant of LMH is novel and applicable
to a wider class of probabilistic programs with nested conditioning.
- Abstract(参考訳): AI計画は確率論的モデルにおける推論として利用でき、確率論的プログラミングは部分的に観測可能な領域でのポリシー探索が可能であることが示されている。
先行研究はマルコフ連鎖モンテカルロによる政策探索を決定論的領域に導入し、ブラックボックス変分推論を確率的領域に適応させるが、厳密にはベイズ的ではない。
本研究では,ベイズ推論問題として確率領域におけるポリシー探索を行い,ネスト確率プログラムのような問題を符号化する手法を提案する。
確率的領域における政策探索の確率的プログラムは、ネスト条件を伴い、そのようなプログラムにおける堅牢な推論のための軽量メトロポリス・ハスティングス(LMH)の適応を提供するべきだと論じる。
提案手法を確率的領域に適用し,より単純で汎用的な推論アルゴリズムに拘わらず,類似品質のポリシーが学習されることを示す。
提案したLMHの変種は新規であり、ネスト条件付きより広範な確率的プログラムに適用できると考えている。
関連論文リスト
- On Policy Evaluation Algorithms in Distributional Reinforcement Learning [0.0]
分散強化学習(DRL)による政策評価問題における未知の回帰分布を効率的に近似する新しいアルゴリズムのクラスを導入する。
提案したアルゴリズムの単純な例では、ワッサーシュタインとコルモゴロフ-スミルノフ距離の両方において誤差境界を証明する。
確率密度関数を持つ戻り分布の場合、アルゴリズムはこれらの密度を近似し、誤差境界は上限ノルム内で与えられる。
論文 参考訳(メタデータ) (2024-07-19T10:06:01Z) - Score-Aware Policy-Gradient Methods and Performance Guarantees using Local Lyapunov Conditions: Applications to Product-Form Stochastic Networks and Queueing Systems [1.747623282473278]
本稿では,ネットワーク上の決定過程(MDP)から得られる定常分布のタイプを利用したモデル強化学習(RL)のポリシー段階的手法を提案する。
具体的には、政策パラメータによってMDPの定常分布がパラメータ化されている場合、平均回帰推定のための既存の政策手法を改善することができる。
論文 参考訳(メタデータ) (2023-12-05T14:44:58Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Marginal Inference queries in Hidden Markov Models under context-free
grammar constraints [0.348097307252416]
隠れモデル(HMM)における文脈自由文法(CFG)の可能性の計算問題に対処する。
問題は NP-Hard であり、CFG が 2 以下のあいまいさの次数を持つという約束があるにもかかわらずである。
次に,不明瞭なCFGの場合の確率を近似するために,完全ランダム化近似法を提案する。
論文 参考訳(メタデータ) (2022-06-26T12:44:18Z) - A Unified View of Algorithms for Path Planning Using Probabilistic
Inference on Factor Graphs [2.4874504720536317]
この研究は、様々なコスト関数から生じる特定の再帰について考察し、スコープに類似しているように見えるが、少なくとも典型的な経路計画問題に適用した場合に違いがある。
確率空間とログ空間の両方で提示されるこの統一されたアプローチは、Sum-product、Max-product、Dynamic Programming、混合Reward/Entropy基準に基づくアルゴリズムを含む非常に一般的なフレームワークを提供する。
論文 参考訳(メタデータ) (2021-06-19T07:13:15Z) - A Bit More Bayesian: Domain-Invariant Learning with Uncertainty [111.22588110362705]
ドメインの一般化は、ドメインシフトと、ターゲットドメインデータのアクセス不能に起因する不確実性のために困難である。
本稿では,変分ベイズ推定に基づく確率的枠組みを用いて,両課題に対処する。
2層ベイズ型ニューラルネットワークで共同で確立されたドメイン不変表現と分類器を導出する。
論文 参考訳(メタデータ) (2021-05-09T21:33:27Z) - A Study of Policy Gradient on a Class of Exactly Solvable Models [35.90565839381652]
我々は、厳密な解決可能なPOMDPの特別なクラスに対して、ポリシーパラメータの進化を連続状態マルコフ連鎖として検討する。
我々のアプローチはランダムウォーク理論、特にアフィンワイル群に大きく依存している。
我々は,政策勾配の確率収束を,値関数の局所的最大値に対して解析する。
論文 参考訳(メタデータ) (2020-11-03T17:27:53Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。