論文の概要: Dynamic mean field programming
- arxiv url: http://arxiv.org/abs/2206.05200v2
- Date: Wed, 12 Jul 2023 05:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 20:35:33.636163
- Title: Dynamic mean field programming
- Title(参考訳): 動的平均場プログラミング
- Authors: George Stamatescu
- Abstract要約: 動的平均場理論は、有限状態と大きな状態空間極限における行動強化学習のために開発された。
ある仮定では、状態-作用値は状態空間の極限における状態-作用対間で統計的に独立である。
結果は、値反復とポリシー評価の両方に対して、有限かつ割引された無限地平線設定を保持する。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A dynamic mean field theory is developed for finite state and action Bayesian
reinforcement learning in the large state space limit. In an analogy with
statistical physics, the Bellman equation is studied as a disordered dynamical
system; the Markov decision process transition probabilities are interpreted as
couplings and the value functions as deterministic spins that evolve
dynamically. Thus, the mean-rewards and transition probabilities are considered
to be quenched random variables. The theory reveals that, under certain
assumptions, the state-action values are statistically independent across
state-action pairs in the asymptotic state space limit, and provides the form
of the distribution exactly. The results hold in the finite and discounted
infinite horizon settings, for both value iteration and policy evaluation. The
state-action value statistics can be computed from a set of mean field
equations, which we call dynamic mean field programming (DMFP). For policy
evaluation the equations are exact. For value iteration, approximate equations
are obtained by appealing to extreme value theory or bounds. The result
provides analytic insight into the statistical structure of tabular
reinforcement learning, for example revealing the conditions under which
reinforcement learning is equivalent to a set of independent multi-armed bandit
problems.
- Abstract(参考訳): 有限状態と作用ベイズ強化学習のための動的平均場理論は、大きな状態空間の限界で開発されている。
統計物理学の類似では、ベルマン方程式は乱れた力学系として研究され、マルコフ決定過程の遷移確率はカップリングとして解釈され、値関数は動的に進化する決定論的スピンとして解釈される。
したがって、平均逆数と遷移確率は確率変数であると考えられる。
この理論は、ある仮定の下で、状態-作用値は漸近状態空間極限における状態-作用対間で統計的に独立であり、分布の形式を正確に提供することを明らかにしている。
結果は、値反復とポリシー評価の両方において、有限かつディスカウントされた無限地平線設定を持つ。
状態-作用値統計は、動的平均場プログラミング(DMFP)と呼ばれる平均場方程式の集合から計算することができる。
政策評価では、方程式は正確である。
値反復の場合、近似方程式は極値理論や境界に訴えることで得られる。
その結果、例えば、強化学習が独立したマルチアーム付きバンディット問題と等価な条件を明らかにするなど、表型強化学習の統計的構造に関する分析的洞察が得られる。
関連論文リスト
- Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。
我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。
当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-11-04T11:09:58Z) - Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces [17.96094201655567]
X_t+1 = f(X_t, A_t, W_t)$。
ここでは、$X$、$A$、$W$はそれぞれ状態、アクション、ランダムノイズプロセスを表し、$f$は状態遷移を記述する既知の関数を表す。
本稿では,所定のあいまいさ集合内の雑音分布に対して,おそらく逆方向の摂動を許容する分布的に頑健な制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-17T07:37:36Z) - Logistic-beta processes for dependent random probabilities with beta marginals [58.91121576998588]
本稿では,ロジスティック・ベータプロセスと呼ばれる新しいプロセスを提案する。
空間や時間などの離散領域と連続領域の両方への依存をモデル化でき、相関カーネルを通じて柔軟な依存構造を持つ。
本研究は,非パラメトリック二分回帰と条件密度推定の例による効果をシミュレーション研究と妊娠結果応用の両方で説明する。
論文 参考訳(メタデータ) (2024-02-10T21:41:32Z) - Asymptotic behavior of continuous weak measurement and its application
to real-time parameter estimation [4.329298109272387]
磁力計の弱い連続測定の量子軌道について検討した。
1つの実現が与えられたとき、任意の初期状態から始まる量子軌道は、同じ実現固有のエム純状態に収束する。
論文 参考訳(メタデータ) (2023-11-03T17:50:45Z) - An information field theory approach to Bayesian state and parameter estimation in dynamical systems [0.0]
本稿では、連続時間決定論的力学系に適した状態とパラメータ推定のためのスケーラブルなベイズ的手法を開発する。
システム応答の関数空間に物理インフォームドされた事前確率測度を構築し、物理を満たす関数がより高い確率で現れるようにする。
論文 参考訳(メタデータ) (2023-06-03T16:36:43Z) - Correspondence between open bosonic systems and stochastic differential
equations [77.34726150561087]
ボゾン系が環境との相互作用を含むように一般化されたとき、有限$n$で正確な対応も可能であることを示す。
離散非線形シュル「オーディンガー方程式」の形をした特定の系をより詳細に分析する。
論文 参考訳(メタデータ) (2023-02-03T19:17:37Z) - Discrete Lagrangian Neural Networks with Automatic Symmetry Discovery [3.06483729892265]
離散ラグランジアンとその対称性群を運動の離散観測から学習する枠組みを導入する。
学習過程はラグランジアンの形を制限せず、速度や運動量の観測や予測を必要とせず、コスト項も含んでいる。
論文 参考訳(メタデータ) (2022-11-20T00:46:33Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。