Fugu-MT 論文翻訳(概要): Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning

論文の概要: Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2206.01162v1
Date: Thu, 2 Jun 2022 17:27:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-03 13:46:15.796057
Title: Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning
Title（参考訳）: モデルベース強化学習のためのnerized stein discrepancyを用いた後方コアセットの構築
Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Brian M. Sadler, Furong Huang, Pratap Tokekar, Dinesh Manocha
Abstract要約: 本稿では,新しい$bf K$ernelized $bf S$tein Discrepancy-based Posterior Smpling for $bf RL$アルゴリズムを提案する。我々は滑らかさやガウス的仮定の必要性を緩和し、複雑な混合モデルを可能にする。我々はまた、積分確率測定値に基づくPSRLの新たな後悔分析法を開発した。
参考スコア（独自算出の注目度）: 78.30395044401321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we propose a novel ${\bf K}$ernelized ${\bf S}$tein Discrepancy-based Posterior Sampling for ${\bf RL}$ algorithm (named $\texttt{KSRL}$) which extends model-based RL based upon posterior sampling (PSRL) in several ways: we (i) relax the need for any smoothness or Gaussian assumptions, allowing for complex mixture models; (ii) ensure it is applicable to large-scale training by incorporating a compression step such that the posterior consists of a \emph{Bayesian coreset} of only statistically significant past state-action pairs; and (iii) develop a novel regret analysis of PSRL based upon integral probability metrics, which, under a smoothness condition on the constructed posterior, can be evaluated in closed form as the kernelized Stein discrepancy (KSD). Consequently, we are able to improve the $\mathcal{O}(H^{3/2}d\sqrt{T})$ {regret} of PSRL to $\mathcal{O}(H^{3/2}\sqrt{T})$, where $d$ is the input dimension, $H$ is the episode length, and $T$ is the total number of episodes experienced, alleviating a linear dependence on $d$ . Moreover, we theoretically establish a trade-off between regret rate with posterior representational complexity via introducing a compression budget parameter $\epsilon$ based on KSD, and establish a lower bound on the required complexity for consistency of the model. Experimentally, we observe that this approach is competitive with several state of the art RL methodologies, with substantive improvements in computation time. Experimentally, we observe that this approach is competitive with several state of the art RL methodologies, and can achieve up-to $50\%$ reduction in wall clock time in some continuous control environments.
Abstract（参考訳）: 本研究では,いくつかの方法でモデルベースrlを拡張した,${\bf rl}$アルゴリズム ($\texttt{ksrl}$) のための,分離された${\bf s}$tein差分に基づく後方サンプリングを提案する。 (i)任意の滑らかさやガウス的仮定の必要性を緩和し、複雑な混合モデルを可能にする。 (ii) 後方が統計的に有意な過去の状態-作用対のみからなる 'emph{Bayesian coreset} からなるような圧縮ステップを組み込むことで、大規模訓練に適用可能であることを保証する。 3) PSRL の積分確率測定値に基づく新たな後悔解析を開発し, 構築後部の滑らかさ条件下では, カーネル化スタイン差分法 (KSD) としてクローズド形式で評価できることを示した。したがって、PSRLの$\mathcal{O}(H^{3/2}d\sqrt{T})$ {regret}を$\mathcal{O}(H^{3/2}\sqrt{T})$に改善することができる。さらに,KSD に基づく圧縮予算パラメータ $\epsilon$ を導入し,モデルの整合性に必要な複雑性を低く設定することで,再現率と後続表現複雑性とのトレードオフを理論的に確立する。実験により,本手法はRL手法のいくつかの状態と競合し,計算時間を大幅に改善することがわかった。実験では,この手法がart rl方法論のいくつかの状態と競合し,連続制御環境では壁時計時間を最大$50\%削減できることを示した。

関連論文リスト

Navigating Sparse Molecular Data with Stein Diffusion Guidance [48.21071466968102]
最適制御(SOC)は、微調整拡散モデルのための原則的フレームワークとして登場した。予測されたクリーンなサンプルに対して,既成の分類器を用いて拡散モデルを導出する,トレーニング不要な手法のクラスが開発されている。本稿では,サロゲート最適制御目標に基づく新しいトレーニングフリーガイダンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T21:14:27Z)
General bounds on the quality of Bayesian coresets [13.497835690074151]
この研究は、KL(Kulback-Leibler)上の一般上界と下界を示す。下限は、コアセット近似の質に関する基本的な制限を得るために適用される。上界は最近のサブサンプル最適化手法の性能解析に使用される。
論文参考訳（メタデータ） (2024-05-20T04:46:14Z)
Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文参考訳（メタデータ） (2024-03-13T20:16:21Z)
One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。 OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文参考訳（メタデータ） (2023-11-27T12:02:42Z)
Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文参考訳（メタデータ） (2023-04-10T17:54:38Z)
Bayesian Pseudo-Coresets via Contrastive Divergence [5.479797073162603]
対照的な発散を利用して擬似コアセットを構築するための新しい手法を提案する。これは擬似コアセット構築プロセスにおける近似の必要性を排除する。複数のデータセットに対して広範な実験を行い、既存のBPC技術よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T17:13:50Z)
Fast post-process Bayesian inference with Variational Sparse Bayesian Quadrature [13.36200518068162]
本稿では,既存の目標密度評価から高速な後続近似を得る手段として,プロセス後ベイズ推定の枠組みを提案する。この枠組みでは,ブラックボックスと潜在的ノイズの可能性のあるモデルに対して,プロセス後近似推定法である変分スパースベイズ近似(VSBQ)を導入する。本手法は,計算神経科学による難解な合成シナリオと実世界の応用について検証する。
論文参考訳（メタデータ） (2023-03-09T13:58:35Z)
Fast Estimation of Bayesian State Space Models Using Amortized Simulation-Based Inference [0.0]
本稿では,ベイズ状態空間モデルの隠れ状態を推定するための高速アルゴリズムを提案する。事前トレーニングの後、データセットの後方分布を見つけるには、100分の1秒から10分の1秒かかる。
論文参考訳（メタデータ） (2022-10-13T16:37:05Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Training Discrete Deep Generative Models via Gapped Straight-Through Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文参考訳（メタデータ） (2022-06-15T01:46:05Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。