論文の概要: Dynamic mean field programming
- arxiv url: http://arxiv.org/abs/2206.05200v1
- Date: Fri, 10 Jun 2022 15:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:21:37.169247
- Title: Dynamic mean field programming
- Title(参考訳): 動的平均場プログラミング
- Authors: George Stamatescu
- Abstract要約: 大きな状態空間におけるモデルに基づく強化学習のための動的平均場理論が開発されている。
ガウス統計はベルマン方程式から導かれる平均場方程式の集合から計算することができる。
Q-値の場合、近似方程式は極値理論に訴えることによって得られる。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A dynamic mean field theory is developed for model based Bayesian
reinforcement learning in the large state space limit. In an analogy with the
statistical physics of disordered systems, the transition probabilities are
interpreted as couplings, and value functions as deterministic spins, and thus
the sampled transition probabilities are considered to be quenched random
variables. The results reveal that, under standard assumptions, the posterior
over Q-values is asymptotically independent and Gaussian across state-action
pairs, for infinite horizon problems. The finite horizon case exhibits the same
behaviour for all state-actions pairs at each time but has an additional
correlation across time, for each state-action pair. The results also hold for
policy evaluation. The Gaussian statistics can be computed from a set of
coupled mean field equations derived from the Bellman equation, which we call
dynamic mean field programming (DMFP). For Q-value iteration, approximate
equations are obtained by appealing to extreme value theory, and closed form
expressions are found in the independent and identically distributed case. The
Lyapunov stability of these closed form equations is studied.
- Abstract(参考訳): モデルベースベイズ強化学習のための動的平均場理論を大規模状態空間極限で開発する。
乱れた系の統計物理学の類似性として、遷移確率はカップリングとして解釈され、値関数は決定論的スピンとして解釈される。
その結果、標準仮定の下では、q値の後方は漸近独立であり、状態-作用対をまたぐガウス的であることが示される。
有限ホライズンケースは、各状態-アクションペアに対して同じ振る舞いを示すが、状態-アクションペアごとに時間を超えて追加の相関を持つ。
結果は政策評価にも当てはまる。
ガウス統計量はベルマン方程式から導かれた一連の結合平均場方程式から計算でき、これを動的平均場プログラミング (dmfp) と呼ぶ。
q値反復の場合、近似方程式は極値理論に訴えることで得られ、閉形式式は独立かつ同分布の場合に見られる。
これらの閉形式方程式のリアプノフ安定性を研究した。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces [17.96094201655567]
X_t+1 = f(X_t, A_t, W_t)$。
ここでは、$X$、$A$、$W$はそれぞれ状態、アクション、ランダムノイズプロセスを表し、$f$は状態遷移を記述する既知の関数を表す。
本稿では,所定のあいまいさ集合内の雑音分布に対して,おそらく逆方向の摂動を許容する分布的に頑健な制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-17T07:37:36Z) - Logistic-beta processes for dependent random probabilities with beta marginals [58.91121576998588]
本稿では,ロジスティック・ベータプロセスと呼ばれる新しいプロセスを提案する。
空間や時間などの離散領域と連続領域の両方への依存をモデル化でき、相関カーネルを通じて柔軟な依存構造を持つ。
本研究は,非パラメトリック二分回帰と条件密度推定の例による効果をシミュレーション研究と妊娠結果応用の両方で説明する。
論文 参考訳(メタデータ) (2024-02-10T21:41:32Z) - Asymptotic behavior of continuous weak measurement and its application
to real-time parameter estimation [4.329298109272387]
磁力計の弱い連続測定の量子軌道について検討した。
1つの実現が与えられたとき、任意の初期状態から始まる量子軌道は、同じ実現固有のエム純状態に収束する。
論文 参考訳(メタデータ) (2023-11-03T17:50:45Z) - An information field theory approach to Bayesian state and parameter estimation in dynamical systems [0.0]
本稿では、連続時間決定論的力学系に適した状態とパラメータ推定のためのスケーラブルなベイズ的手法を開発する。
システム応答の関数空間に物理インフォームドされた事前確率測度を構築し、物理を満たす関数がより高い確率で現れるようにする。
論文 参考訳(メタデータ) (2023-06-03T16:36:43Z) - Correspondence between open bosonic systems and stochastic differential
equations [77.34726150561087]
ボゾン系が環境との相互作用を含むように一般化されたとき、有限$n$で正確な対応も可能であることを示す。
離散非線形シュル「オーディンガー方程式」の形をした特定の系をより詳細に分析する。
論文 参考訳(メタデータ) (2023-02-03T19:17:37Z) - Discrete Lagrangian Neural Networks with Automatic Symmetry Discovery [3.06483729892265]
離散ラグランジアンとその対称性群を運動の離散観測から学習する枠組みを導入する。
学習過程はラグランジアンの形を制限せず、速度や運動量の観測や予測を必要とせず、コスト項も含んでいる。
論文 参考訳(メタデータ) (2022-11-20T00:46:33Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。