論文の概要: Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.01162v1
- Date: Thu, 2 Jun 2022 17:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 13:46:15.796057
- Title: Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習のためのnerized stein discrepancyを用いた後方コアセットの構築
- Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Brian M. Sadler,
Furong Huang, Pratap Tokekar, Dinesh Manocha
- Abstract要約: 本稿では,新しい$bf K$ernelized $bf S$tein Discrepancy-based Posterior Smpling for $bf RL$アルゴリズムを提案する。
我々は滑らかさやガウス的仮定の必要性を緩和し、複雑な混合モデルを可能にする。
我々はまた、積分確率測定値に基づくPSRLの新たな後悔分析法を開発した。
- 参考スコア(独自算出の注目度): 78.30395044401321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel ${\bf K}$ernelized ${\bf S}$tein
Discrepancy-based Posterior Sampling for ${\bf RL}$ algorithm (named
$\texttt{KSRL}$) which extends model-based RL based upon posterior sampling
(PSRL) in several ways: we (i) relax the need for any smoothness or Gaussian
assumptions, allowing for complex mixture models; (ii) ensure it is applicable
to large-scale training by incorporating a compression step such that the
posterior consists of a \emph{Bayesian coreset} of only statistically
significant past state-action pairs; and (iii) develop a novel regret analysis
of PSRL based upon integral probability metrics, which, under a smoothness
condition on the constructed posterior, can be evaluated in closed form as the
kernelized Stein discrepancy (KSD). Consequently, we are able to improve the
$\mathcal{O}(H^{3/2}d\sqrt{T})$ {regret} of PSRL to
$\mathcal{O}(H^{3/2}\sqrt{T})$, where $d$ is the input dimension, $H$ is the
episode length, and $T$ is the total number of episodes experienced,
alleviating a linear dependence on $d$ . Moreover, we theoretically establish a
trade-off between regret rate with posterior representational complexity via
introducing a compression budget parameter $\epsilon$ based on KSD, and
establish a lower bound on the required complexity for consistency of the
model. Experimentally, we observe that this approach is competitive with
several state of the art RL methodologies, with substantive improvements in
computation time. Experimentally, we observe that this approach is competitive
with several state of the art RL methodologies, and can achieve up-to $50\%$
reduction in wall clock time in some continuous control environments.
- Abstract(参考訳): 本研究では,いくつかの方法でモデルベースrlを拡張した,${\bf rl}$アルゴリズム ($\texttt{ksrl}$) のための,分離された${\bf s}$tein差分に基づく後方サンプリングを提案する。
(i)任意の滑らかさやガウス的仮定の必要性を緩和し、複雑な混合モデルを可能にする。
(ii) 後方が統計的に有意な過去の状態-作用対のみからなる 'emph{Bayesian coreset} からなるような圧縮ステップを組み込むことで、大規模訓練に適用可能であることを保証する。
3) PSRL の積分確率測定値に基づく新たな後悔解析を開発し, 構築後部の滑らかさ条件下では, カーネル化スタイン差分法 (KSD) としてクローズド形式で評価できることを示した。
したがって、PSRLの$\mathcal{O}(H^{3/2}d\sqrt{T})$ {regret}を$\mathcal{O}(H^{3/2}\sqrt{T})$に改善することができる。
さらに,KSD に基づく圧縮予算パラメータ $\epsilon$ を導入し,モデルの整合性に必要な複雑性を低く設定することで,再現率と後続表現複雑性とのトレードオフを理論的に確立する。
実験により,本手法はRL手法のいくつかの状態と競合し,計算時間を大幅に改善することがわかった。
実験では,この手法がart rl方法論のいくつかの状態と競合し,連続制御環境では壁時計時間を最大$50\%削減できることを示した。
関連論文リスト
- Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文 参考訳(メタデータ) (2024-03-13T20:16:21Z) - Low-resolution Prior Equilibrium Network for CT Reconstruction [3.5639148953570836]
本稿では,低分解能画像を導入し,ネットワークの堅牢性を改善するための効果的な正規化項を得る,新しいディープラーニングベースのCT再構成モデルを提案する。
狭角化と狭角化の両問題を実験的に検討し, ノイズ低減, コントラスト・ツー・ノイズ比, エッジ細部保存の両面において, エンド・ツー・エンドの低分解能事前平衡モデルが他の最先端手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-01-28T13:59:58Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Uncertainty estimation for time series forecasting via Gaussian process
regression surrogates [0.8733767481819791]
代用ガウス過程モデルに基づく不確実性推定法を提案する。
提案手法は,任意のベースモデルに対して,個別のサロゲートが生成した正確な不確実性推定を行うことができる。
他の手法と比較して、見積もりは1つの追加モデルだけで計算的に有効である。
論文 参考訳(メタデータ) (2023-02-06T14:52:56Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Fast Estimation of Bayesian State Space Models Using Amortized
Simulation-Based Inference [0.0]
本稿では,ベイズ状態空間モデルの隠れ状態を推定するための高速アルゴリズムを提案する。
事前トレーニングの後、データセットの後方分布を見つけるには、100分の1秒から10分の1秒かかる。
論文 参考訳(メタデータ) (2022-10-13T16:37:05Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。