論文の概要: Dynamic mean field programming
- arxiv url: http://arxiv.org/abs/2206.05200v2
- Date: Wed, 12 Jul 2023 05:57:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 20:35:33.636163
- Title: Dynamic mean field programming
- Title(参考訳): 動的平均場プログラミング
- Authors: George Stamatescu
- Abstract要約: 動的平均場理論は、有限状態と大きな状態空間極限における行動強化学習のために開発された。
ある仮定では、状態-作用値は状態空間の極限における状態-作用対間で統計的に独立である。
結果は、値反復とポリシー評価の両方に対して、有限かつ割引された無限地平線設定を保持する。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A dynamic mean field theory is developed for finite state and action Bayesian
reinforcement learning in the large state space limit. In an analogy with
statistical physics, the Bellman equation is studied as a disordered dynamical
system; the Markov decision process transition probabilities are interpreted as
couplings and the value functions as deterministic spins that evolve
dynamically. Thus, the mean-rewards and transition probabilities are considered
to be quenched random variables. The theory reveals that, under certain
assumptions, the state-action values are statistically independent across
state-action pairs in the asymptotic state space limit, and provides the form
of the distribution exactly. The results hold in the finite and discounted
infinite horizon settings, for both value iteration and policy evaluation. The
state-action value statistics can be computed from a set of mean field
equations, which we call dynamic mean field programming (DMFP). For policy
evaluation the equations are exact. For value iteration, approximate equations
are obtained by appealing to extreme value theory or bounds. The result
provides analytic insight into the statistical structure of tabular
reinforcement learning, for example revealing the conditions under which
reinforcement learning is equivalent to a set of independent multi-armed bandit
problems.
- Abstract(参考訳): 有限状態と作用ベイズ強化学習のための動的平均場理論は、大きな状態空間の限界で開発されている。
統計物理学の類似では、ベルマン方程式は乱れた力学系として研究され、マルコフ決定過程の遷移確率はカップリングとして解釈され、値関数は動的に進化する決定論的スピンとして解釈される。
したがって、平均逆数と遷移確率は確率変数であると考えられる。
この理論は、ある仮定の下で、状態-作用値は漸近状態空間極限における状態-作用対間で統計的に独立であり、分布の形式を正確に提供することを明らかにしている。
結果は、値反復とポリシー評価の両方において、有限かつディスカウントされた無限地平線設定を持つ。
状態-作用値統計は、動的平均場プログラミング(DMFP)と呼ばれる平均場方程式の集合から計算することができる。
政策評価では、方程式は正確である。
値反復の場合、近似方程式は極値理論や境界に訴えることで得られる。
その結果、例えば、強化学習が独立したマルチアーム付きバンディット問題と等価な条件を明らかにするなど、表型強化学習の統計的構造に関する分析的洞察が得られる。
関連論文リスト
- Asymptotic behavior of continuous weak measurement and its application
to real-time parameter estimation [4.329298109272387]
磁力計の弱い連続測定の量子軌道について検討した。
1つの実現が与えられたとき、任意の初期状態から始まる量子軌道は、同じ実現固有のエム純状態に収束する。
論文 参考訳(メタデータ) (2023-11-03T17:50:45Z) - Variational Equations-of-States for Interacting Quantum Hamiltonians [0.0]
相互作用する量子ハミルトニアンの純粋状態に対する状態の変分方程式(VES)を示す。
VESは密度演算子や静的相関関数の変化の観点から表現することができる。
VESの3つの非自明な応用を示す。
論文 参考訳(メタデータ) (2023-07-03T07:51:15Z) - An information field theory approach to Bayesian state and parameter
estimation in dynamical systems [0.0]
本稿では、連続時間決定論的力学系に適した状態とパラメータ推定のためのスケーラブルなベイズ的手法を開発する。
システム応答の関数空間に物理インフォームドされた事前確率測度を構築し、物理を満たす関数がより高い確率で現れるようにする。
論文 参考訳(メタデータ) (2023-06-03T16:36:43Z) - Correspondence between open bosonic systems and stochastic differential
equations [77.34726150561087]
ボゾン系が環境との相互作用を含むように一般化されたとき、有限$n$で正確な対応も可能であることを示す。
離散非線形シュル「オーディンガー方程式」の形をした特定の系をより詳細に分析する。
論文 参考訳(メタデータ) (2023-02-03T19:17:37Z) - Discrete Lagrangian Neural Networks with Automatic Symmetry Discovery [3.06483729892265]
離散ラグランジアンとその対称性群を運動の離散観測から学習する枠組みを導入する。
学習過程はラグランジアンの形を制限せず、速度や運動量の観測や予測を必要とせず、コスト項も含んでいる。
論文 参考訳(メタデータ) (2022-11-20T00:46:33Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - A Physics-informed Deep Learning Approach for Minimum Effort Stochastic
Control of Colloidal Self-Assembly [9.791617215182598]
制御目的は、所定の初期確率尺度から最小制御労力で所定の終端確率尺度へ状態PDFを操る観点から定式化される。
我々は、関連する最適制御問題に対する最適性の条件を導出する。
提案手法の性能は, ベンチマークコロイド自己集合問題に対する数値シミュレーションにより検証した。
論文 参考訳(メタデータ) (2022-08-19T07:01:57Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Understanding the Under-Coverage Bias in Uncertainty Estimation [58.03725169462616]
量子レグレッションは、現実の望ましいカバレッジレベルよりもアンファンダーカバー(enmphunder-cover)する傾向がある。
我々は、量子レグレッションが固有のアンダーカバーバイアスに悩まされていることを証明している。
我々の理論は、この過大被覆バイアスが特定の高次元パラメータ推定誤差に起因することを明らかにしている。
論文 参考訳(メタデータ) (2021-06-10T06:11:55Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。
非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。
物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文 参考訳(メタデータ) (2021-05-10T21:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。