論文の概要: Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.01162v2
- Date: Thu, 4 May 2023 05:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 19:47:41.995243
- Title: Posterior Coreset Construction with Kernelized Stein Discrepancy for
Model-Based Reinforcement Learning
- Title(参考訳): モデルベース強化学習のためのnerized stein discrepancyを用いた後方コアセットの構築
- Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Brian M. Sadler,
Furong Huang, Pratap Tokekar, Dinesh Manocha
- Abstract要約: 我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。
ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。
連続的な制御環境では、壁時計の時間を最大50%削減することができる。
- 参考スコア(独自算出の注目度): 78.30395044401321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based approaches to reinforcement learning (MBRL) exhibit favorable
performance in practice, but their theoretical guarantees in large spaces are
mostly restricted to the setting when transition model is Gaussian or
Lipschitz, and demands a posterior estimate whose representational complexity
grows unbounded with time. In this work, we develop a novel MBRL method (i)
which relaxes the assumptions on the target transition model to belong to a
generic family of mixture models; (ii) is applicable to large-scale training by
incorporating a compression step such that the posterior estimate consists of a
Bayesian coreset of only statistically significant past state-action pairs; and
(iii) exhibits a sublinear Bayesian regret. To achieve these results, we adopt
an approach based upon Stein's method, which, under a smoothness condition on
the constructed posterior and target, allows distributional distance to be
evaluated in closed form as the kernelized Stein discrepancy (KSD). The
aforementioned compression step is then computed in terms of greedily retaining
only those samples which are more than a certain KSD away from the previous
model estimate. Experimentally, we observe that this approach is competitive
with several state-of-the-art RL methodologies, and can achieve up-to 50
percent reduction in wall clock time in some continuous control environments.
- Abstract(参考訳): モデルに基づく強化学習(mbrl)のアプローチは、実際には良好な性能を示すが、大きな空間における理論的な保証は、遷移モデルがガウスあるいはリプシッツである場合の設定に制限され、時間とともに表現複雑性が増大しない後方推定を要求する。
本研究では,新しいMBRL法を提案する。
i) 対象遷移モデルの仮定を緩和し,混合モデルの一般的なファミリーに属すること。
(ii)後方推定が統計的に有意な過去の状態-作用対のみからなるベイズコアセットからなる圧縮ステップを組み込んだ大規模訓練に適用できる。
(iii) ベイズ亜線形の後悔を示す。
これらの結果を達成するために,背後および目標の平滑性条件下での分布距離をカーネル化スタイン差(ksd)として閉じた形で評価できる,stein法に基づくアプローチを採用する。
上記の圧縮ステップは、前モデルの推定値から一定の ksd 以上のサンプルのみを厳格に保持するという意味で計算される。
実験により、この手法はいくつかの最先端のRL手法と競合し、連続制御環境では壁時計時間を最大50%削減できることがわかった。
関連論文リスト
- Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文 参考訳(メタデータ) (2024-03-13T20:16:21Z) - Low-resolution Prior Equilibrium Network for CT Reconstruction [3.5639148953570836]
本稿では,低分解能画像を導入し,ネットワークの堅牢性を改善するための効果的な正規化項を得る,新しいディープラーニングベースのCT再構成モデルを提案する。
狭角化と狭角化の両問題を実験的に検討し, ノイズ低減, コントラスト・ツー・ノイズ比, エッジ細部保存の両面において, エンド・ツー・エンドの低分解能事前平衡モデルが他の最先端手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2024-01-28T13:59:58Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Uncertainty estimation for time series forecasting via Gaussian process
regression surrogates [0.8733767481819791]
代用ガウス過程モデルに基づく不確実性推定法を提案する。
提案手法は,任意のベースモデルに対して,個別のサロゲートが生成した正確な不確実性推定を行うことができる。
他の手法と比較して、見積もりは1つの追加モデルだけで計算的に有効である。
論文 参考訳(メタデータ) (2023-02-06T14:52:56Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Fast Estimation of Bayesian State Space Models Using Amortized
Simulation-Based Inference [0.0]
本稿では,ベイズ状態空間モデルの隠れ状態を推定するための高速アルゴリズムを提案する。
事前トレーニングの後、データセットの後方分布を見つけるには、100分の1秒から10分の1秒かかる。
論文 参考訳(メタデータ) (2022-10-13T16:37:05Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。