論文の概要: Dynamic mean field programming
- arxiv url: http://arxiv.org/abs/2206.05200v1
- Date: Fri, 10 Jun 2022 15:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 15:21:37.169247
- Title: Dynamic mean field programming
- Title(参考訳): 動的平均場プログラミング
- Authors: George Stamatescu
- Abstract要約: 大きな状態空間におけるモデルに基づく強化学習のための動的平均場理論が開発されている。
ガウス統計はベルマン方程式から導かれる平均場方程式の集合から計算することができる。
Q-値の場合、近似方程式は極値理論に訴えることによって得られる。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A dynamic mean field theory is developed for model based Bayesian
reinforcement learning in the large state space limit. In an analogy with the
statistical physics of disordered systems, the transition probabilities are
interpreted as couplings, and value functions as deterministic spins, and thus
the sampled transition probabilities are considered to be quenched random
variables. The results reveal that, under standard assumptions, the posterior
over Q-values is asymptotically independent and Gaussian across state-action
pairs, for infinite horizon problems. The finite horizon case exhibits the same
behaviour for all state-actions pairs at each time but has an additional
correlation across time, for each state-action pair. The results also hold for
policy evaluation. The Gaussian statistics can be computed from a set of
coupled mean field equations derived from the Bellman equation, which we call
dynamic mean field programming (DMFP). For Q-value iteration, approximate
equations are obtained by appealing to extreme value theory, and closed form
expressions are found in the independent and identically distributed case. The
Lyapunov stability of these closed form equations is studied.
- Abstract(参考訳): モデルベースベイズ強化学習のための動的平均場理論を大規模状態空間極限で開発する。
乱れた系の統計物理学の類似性として、遷移確率はカップリングとして解釈され、値関数は決定論的スピンとして解釈される。
その結果、標準仮定の下では、q値の後方は漸近独立であり、状態-作用対をまたぐガウス的であることが示される。
有限ホライズンケースは、各状態-アクションペアに対して同じ振る舞いを示すが、状態-アクションペアごとに時間を超えて追加の相関を持つ。
結果は政策評価にも当てはまる。
ガウス統計量はベルマン方程式から導かれた一連の結合平均場方程式から計算でき、これを動的平均場プログラミング (dmfp) と呼ぶ。
q値反復の場合、近似方程式は極値理論に訴えることで得られ、閉形式式は独立かつ同分布の場合に見られる。
これらの閉形式方程式のリアプノフ安定性を研究した。
関連論文リスト
- Correspondence between open bosonic systems and stochastic differential
equations [77.34726150561087]
ボゾン系が環境との相互作用を含むように一般化されたとき、有限$n$で正確な対応も可能であることを示す。
離散非線形シュル「オーディンガー方程式」の形をした特定の系をより詳細に分析する。
論文 参考訳(メタデータ) (2023-02-03T19:17:37Z) - Probabilistic bounds with quadratic-exponential moments for quantum
stochastic systems [0.0]
位置モメンタム型標準可換関係を持つ量子系の動的変数に対する二次指数モーメント(QEM)。
QEMは、系の変数の正定値関数のテール確率分布上の上界の形で量子力学の統計的局所化に重要な役割を果たす。
論文 参考訳(メタデータ) (2022-11-22T10:40:52Z) - Statistical Efficiency of Score Matching: The View from Isoperimetry [96.65637602827942]
本研究では, スコアマッチングの統計的効率と推定される分布の等尺性との間に, 密接な関係を示す。
これらの結果はサンプル状態と有限状態の両方で定式化する。
論文 参考訳(メタデータ) (2022-10-03T06:09:01Z) - A Physics-informed Deep Learning Approach for Minimum Effort Stochastic
Control of Colloidal Self-Assembly [9.791617215182598]
制御目的は、所定の初期確率尺度から最小制御労力で所定の終端確率尺度へ状態PDFを操る観点から定式化される。
我々は、関連する最適制御問題に対する最適性の条件を導出する。
提案手法の性能は, ベンチマークコロイド自己集合問題に対する数値シミュレーションにより検証した。
論文 参考訳(メタデータ) (2022-08-19T07:01:57Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - Anomalous ballistic scaling in the tensionless or inviscid
Kardar-Parisi-Zhang equation [0.0]
表面張力ゼロあるいは粘度ゼロの場合、解析解は不要であることを示す。
数値シミュレーションを用いて、この場合の well-defined universality class を解明する。
後者は、KPZと異なる条件下での弾道緩和を測定する最近の量子スピンチェーンの実験に関係しているかもしれない。
論文 参考訳(メタデータ) (2022-05-18T09:29:09Z) - The Dynamics of the Hubbard Model through Stochastic Calculus and
Girsanov Transformation [0.0]
本稿では,Bose-Hubbardモデルにおける密度要素の時間発展について考察する。
正確な量子力学は、時間依存的なGross Pitaevskii方程式である ODE システムによって与えられる。
この論文は、量子多体系の効率的な計算法を考案する目的で書かれた。
論文 参考訳(メタデータ) (2022-05-04T11:43:43Z) - Nonparametric Conditional Local Independence Testing [69.31200003384122]
条件付き局所独立は、連続的な時間プロセス間の独立関係である。
条件付き地域独立の非パラメトリックテストは行われていない。
二重機械学習に基づく非パラメトリックテストを提案する。
論文 参考訳(メタデータ) (2022-03-25T10:31:02Z) - AutoIP: A United Framework to Integrate Physics into Gaussian Processes [15.108333340471034]
あらゆる微分方程式をガウス過程に統合できる枠組みを提案する。
本手法は,シミュレーションと実世界の応用の両方において,バニラGPの改善を示す。
論文 参考訳(メタデータ) (2022-02-24T19:02:14Z) - The Connection between Discrete- and Continuous-Time Descriptions of
Gaussian Continuous Processes [60.35125735474386]
我々は、一貫した推定子をもたらす離散化が粗粒化下での不変性を持つことを示す。
この結果は、導関数再構成のための微分スキームと局所時間推論アプローチの組み合わせが、2次または高次微分方程式の時系列解析に役立たない理由を説明する。
論文 参考訳(メタデータ) (2021-01-16T17:11:02Z) - Tractable Inference in Credal Sentential Decision Diagrams [116.6516175350871]
確率感性決定図は、解離ゲートの入力が確率値によってアノテートされる論理回路である。
我々は、局所確率を質量関数のクレーダル集合に置き換えることができる確率の一般化である、クレーダル感性決定図を開発する。
まず,ノイズの多い7セグメント表示画像に基づく簡単なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2020-08-19T16:04:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。