Fugu-MT 論文翻訳(概要): Dynamic mean field programming

論文の概要: Dynamic mean field programming

arxiv url: http://arxiv.org/abs/2206.05200v1
Date: Fri, 10 Jun 2022 15:57:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-13 15:21:37.169247
Title: Dynamic mean field programming
Title（参考訳）: 動的平均場プログラミング
Authors: George Stamatescu
Abstract要約: 大きな状態空間におけるモデルに基づく強化学習のための動的平均場理論が開発されている。ガウス統計はベルマン方程式から導かれる平均場方程式の集合から計算することができる。 Q-値の場合、近似方程式は極値理論に訴えることによって得られる。
参考スコア（独自算出の注目度）: 1.2183405753834562
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A dynamic mean field theory is developed for model based Bayesian reinforcement learning in the large state space limit. In an analogy with the statistical physics of disordered systems, the transition probabilities are interpreted as couplings, and value functions as deterministic spins, and thus the sampled transition probabilities are considered to be quenched random variables. The results reveal that, under standard assumptions, the posterior over Q-values is asymptotically independent and Gaussian across state-action pairs, for infinite horizon problems. The finite horizon case exhibits the same behaviour for all state-actions pairs at each time but has an additional correlation across time, for each state-action pair. The results also hold for policy evaluation. The Gaussian statistics can be computed from a set of coupled mean field equations derived from the Bellman equation, which we call dynamic mean field programming (DMFP). For Q-value iteration, approximate equations are obtained by appealing to extreme value theory, and closed form expressions are found in the independent and identically distributed case. The Lyapunov stability of these closed form equations is studied.
Abstract（参考訳）: モデルベースベイズ強化学習のための動的平均場理論を大規模状態空間極限で開発する。乱れた系の統計物理学の類似性として、遷移確率はカップリングとして解釈され、値関数は決定論的スピンとして解釈される。その結果、標準仮定の下では、q値の後方は漸近独立であり、状態-作用対をまたぐガウス的であることが示される。有限ホライズンケースは、各状態-アクションペアに対して同じ振る舞いを示すが、状態-アクションペアごとに時間を超えて追加の相関を持つ。結果は政策評価にも当てはまる。ガウス統計量はベルマン方程式から導かれた一連の結合平均場方程式から計算でき、これを動的平均場プログラミング (dmfp) と呼ぶ。 q値反復の場合、近似方程式は極値理論に訴えることで得られ、閉形式式は独立かつ同分布の場合に見られる。これらの閉形式方程式のリアプノフ安定性を研究した。

関連論文リスト

Equivariant Evidential Deep Learning for Interatomic Potentials [55.6997213490859]
不確かさの定量化は、分子動力学シミュレーションにおける機械学習の原子間ポテンシャルの信頼性を評価するために重要である。既存のMLIPのUQアプローチは、高い計算コストや準最適性能によって制限されることが多い。我々は,原子間ポテンシャルの定量的深層学習(texte2$IP)を提案する。
論文参考訳（メタデータ） (2026-02-11T02:00:25Z)
Asymptotic Theory and Phase Transitions for Variable Importance in Quantile Regression Forests [0.0]
ピンボール損失リスクの差として定義される変数内在的重要性の理論を考案する。偏差支配体制(約1/2$)では、推定器がゼロ平均正規分布ではなく決定論的偏差定数に収束すると、標準推論は崩壊する。
論文参考訳（メタデータ） (2025-11-28T14:18:05Z)
A Foundational Theory of Quantitative Abstraction: Adjunctions, Duality, and Logic for Probabilistic Systems [2.362412515574206]
大規模あるいは連続的な状態空間は、正確に解析しやすくし、原理化された量的抽象を要求する。この研究は、圏論、コレージュブラ、量論理、最適輸送を統合することで、そのような抽象の統一理論を発展させる。
論文参考訳（メタデータ） (2025-10-22T10:16:24Z)
Conditional Distribution Quantization in Machine Learning [83.54039134248231]
条件予測 mathbbE(Y Mid X) はしばしば、マルチモーダル条件分布の複雑さを捉えることに失敗する(Y Mid X) 我々はn点条件量子化(n-point Conditional Quantizations)-勾配降下により学習可能なXの関数写像--近似数学L(Y mid X)-を提案する。
論文参考訳（メタデータ） (2025-02-11T00:28:24Z)
Learning Controlled Stochastic Differential Equations [61.82896036131116]
本研究では,非一様拡散を伴う連続多次元非線形微分方程式のドリフト係数と拡散係数の両方を推定する新しい手法を提案する。我々は、(L2)、(Linfty)の有限サンプル境界や、係数の正則性に適応する学習率を持つリスクメトリクスを含む、強力な理論的保証を提供する。当社のメソッドはオープンソースPythonライブラリとして利用可能です。
論文参考訳（メタデータ） (2024-11-04T11:09:58Z)
Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces [17.96094201655567]
X_t+1 = f(X_t, A_t, W_t)$。ここでは、$X$、$A$、$W$はそれぞれ状態、アクション、ランダムノイズプロセスを表し、$f$は状態遷移を記述する既知の関数を表す。本稿では,所定のあいまいさ集合内の雑音分布に対して,おそらく逆方向の摂動を許容する分布的に頑健な制御パラダイムを提案する。
論文参考訳（メタデータ） (2024-06-17T07:37:36Z)
Logistic-beta processes for dependent random probabilities with beta marginals [58.91121576998588]
本稿では,ロジスティック・ベータプロセスと呼ばれる新しいプロセスを提案する。空間や時間などの離散領域と連続領域の両方への依存をモデル化でき、相関カーネルを通じて柔軟な依存構造を持つ。本研究は,非パラメトリック二分回帰と条件密度推定の例による効果をシミュレーション研究と妊娠結果応用の両方で説明する。
論文参考訳（メタデータ） (2024-02-10T21:41:32Z)
Asymptotic behavior of continuous weak measurement and its application to real-time parameter estimation [4.329298109272387]
磁力計の弱い連続測定の量子軌道について検討した。 1つの実現が与えられたとき、任意の初期状態から始まる量子軌道は、同じ実現固有のエム純状態に収束する。
論文参考訳（メタデータ） (2023-11-03T17:50:45Z)
An information field theory approach to Bayesian state and parameter estimation in dynamical systems [0.0]
本稿では、連続時間決定論的力学系に適した状態とパラメータ推定のためのスケーラブルなベイズ的手法を開発する。システム応答の関数空間に物理インフォームドされた事前確率測度を構築し、物理を満たす関数がより高い確率で現れるようにする。
論文参考訳（メタデータ） (2023-06-03T16:36:43Z)
Correspondence between open bosonic systems and stochastic differential equations [77.34726150561087]
ボゾン系が環境との相互作用を含むように一般化されたとき、有限$n$で正確な対応も可能であることを示す。離散非線形シュル「オーディンガー方程式」の形をした特定の系をより詳細に分析する。
論文参考訳（メタデータ） (2023-02-03T19:17:37Z)
Discrete Lagrangian Neural Networks with Automatic Symmetry Discovery [3.06483729892265]
離散ラグランジアンとその対称性群を運動の離散観測から学習する枠組みを導入する。学習過程はラグランジアンの形を制限せず、速度や運動量の観測や予測を必要とせず、コスト項も含んでいる。
論文参考訳（メタデータ） (2022-11-20T00:46:33Z)
Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文参考訳（メタデータ） (2022-08-29T16:16:22Z)
Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文参考訳（メタデータ） (2021-05-25T19:48:35Z)
Value Iteration in Continuous Actions, States and Time [99.00362538261972]
連続状態と動作に対する連続的適合値反復(cFVI)アルゴリズムを提案する。非線形制御アフィンダイナミクスに対して最適なポリシを導出することができる。物理システムのビデオは、urlhttps://sites.google.com/view/value-iteration.comで入手できる。
論文参考訳（メタデータ） (2021-05-10T21:40:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。