論文の概要: Dynamic mean field programming
- arxiv url: http://arxiv.org/abs/2206.05200v1
- Date: Fri, 10 Jun 2022 15:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:21:37.169247
- Title: Dynamic mean field programming
- Title(参考訳): 動的平均場プログラミング
- Authors: George Stamatescu
- Abstract要約: 大きな状態空間におけるモデルに基づく強化学習のための動的平均場理論が開発されている。
ガウス統計はベルマン方程式から導かれる平均場方程式の集合から計算することができる。
Q-値の場合、近似方程式は極値理論に訴えることによって得られる。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A dynamic mean field theory is developed for model based Bayesian
reinforcement learning in the large state space limit. In an analogy with the
statistical physics of disordered systems, the transition probabilities are
interpreted as couplings, and value functions as deterministic spins, and thus
the sampled transition probabilities are considered to be quenched random
variables. The results reveal that, under standard assumptions, the posterior
over Q-values is asymptotically independent and Gaussian across state-action
pairs, for infinite horizon problems. The finite horizon case exhibits the same
behaviour for all state-actions pairs at each time but has an additional
correlation across time, for each state-action pair. The results also hold for
policy evaluation. The Gaussian statistics can be computed from a set of
coupled mean field equations derived from the Bellman equation, which we call
dynamic mean field programming (DMFP). For Q-value iteration, approximate
equations are obtained by appealing to extreme value theory, and closed form
expressions are found in the independent and identically distributed case. The
Lyapunov stability of these closed form equations is studied.
- Abstract(参考訳): モデルベースベイズ強化学習のための動的平均場理論を大規模状態空間極限で開発する。
乱れた系の統計物理学の類似性として、遷移確率はカップリングとして解釈され、値関数は決定論的スピンとして解釈される。
その結果、標準仮定の下では、q値の後方は漸近独立であり、状態-作用対をまたぐガウス的であることが示される。
有限ホライズンケースは、各状態-アクションペアに対して同じ振る舞いを示すが、状態-アクションペアごとに時間を超えて追加の相関を持つ。
結果は政策評価にも当てはまる。
ガウス統計量はベルマン方程式から導かれた一連の結合平均場方程式から計算でき、これを動的平均場プログラミング (dmfp) と呼ぶ。
q値反復の場合、近似方程式は極値理論に訴えることで得られ、閉形式式は独立かつ同分布の場合に見られる。
これらの閉形式方程式のリアプノフ安定性を研究した。
関連論文リスト
- Asymptotic behavior of continuous weak measurement and its application
to real-time parameter estimation [4.329298109272387]
磁力計の弱い連続測定の量子軌道について検討した。
1つの実現が与えられたとき、任意の初期状態から始まる量子軌道は、同じ実現固有のエム純状態に収束する。
論文 参考訳(メタデータ) (2023-11-03T17:50:45Z) - Variational Equations-of-States for Interacting Quantum Hamiltonians [0.0]
相互作用する量子ハミルトニアンの純粋状態に対する状態の変分方程式(VES)を示す。
VESは密度演算子や静的相関関数の変化の観点から表現することができる。
VESの3つの非自明な応用を示す。
論文 参考訳(メタデータ) (2023-07-03T07:51:15Z) - An information field theory approach to Bayesian state and parameter
estimation in dynamical systems [0.0]
本稿では、連続時間決定論的力学系に適した状態とパラメータ推定のためのスケーラブルなベイズ的手法を開発する。
システム応答の関数空間に物理インフォームドされた事前確率測度を構築し、物理を満たす関数がより高い確率で現れるようにする。
論文 参考訳(メタデータ) (2023-06-03T16:36:43Z) - Correspondence between open bosonic systems and stochastic differential
equations [77.34726150561087]
ボゾン系が環境との相互作用を含むように一般化されたとき、有限$n$で正確な対応も可能であることを示す。
離散非線形シュル「オーディンガー方程式」の形をした特定の系をより詳細に分析する。
論文 参考訳(メタデータ) (2023-02-03T19:17:37Z) - Discrete Lagrangian Neural Networks with Automatic Symmetry Discovery [3.06483729892265]
離散ラグランジアンとその対称性群を運動の離散観測から学習する枠組みを導入する。
学習過程はラグランジアンの形を制限せず、速度や運動量の観測や予測を必要とせず、コスト項も含んでいる。
論文 参考訳(メタデータ) (2022-11-20T00:46:33Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - A Physics-informed Deep Learning Approach for Minimum Effort Stochastic
Control of Colloidal Self-Assembly [9.791617215182598]
制御目的は、所定の初期確率尺度から最小制御労力で所定の終端確率尺度へ状態PDFを操る観点から定式化される。
我々は、関連する最適制御問題に対する最適性の条件を導出する。
提案手法の性能は, ベンチマークコロイド自己集合問題に対する数値シミュレーションにより検証した。
論文 参考訳(メタデータ) (2022-08-19T07:01:57Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。