Fugu-MT 論文翻訳(概要): Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning

論文の概要: Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning

arxiv url: http://arxiv.org/abs/2206.01162v2
Date: Thu, 4 May 2023 05:25:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 19:47:41.995243
Title: Posterior Coreset Construction with Kernelized Stein Discrepancy for Model-Based Reinforcement Learning
Title（参考訳）: モデルベース強化学習のためのnerized stein discrepancyを用いた後方コアセットの構築
Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Brian M. Sadler, Furong Huang, Pratap Tokekar, Dinesh Manocha
Abstract要約: 我々は、強化学習(MBRL)のための新しいモデルベースアプローチを開発する。ターゲット遷移モデルの仮定を緩和し、混合モデルの一般的な族に属する。連続的な制御環境では、壁時計の時間を最大50%削減することができる。
参考スコア（独自算出の注目度）: 78.30395044401321
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model-based approaches to reinforcement learning (MBRL) exhibit favorable performance in practice, but their theoretical guarantees in large spaces are mostly restricted to the setting when transition model is Gaussian or Lipschitz, and demands a posterior estimate whose representational complexity grows unbounded with time. In this work, we develop a novel MBRL method (i) which relaxes the assumptions on the target transition model to belong to a generic family of mixture models; (ii) is applicable to large-scale training by incorporating a compression step such that the posterior estimate consists of a Bayesian coreset of only statistically significant past state-action pairs; and (iii) exhibits a sublinear Bayesian regret. To achieve these results, we adopt an approach based upon Stein's method, which, under a smoothness condition on the constructed posterior and target, allows distributional distance to be evaluated in closed form as the kernelized Stein discrepancy (KSD). The aforementioned compression step is then computed in terms of greedily retaining only those samples which are more than a certain KSD away from the previous model estimate. Experimentally, we observe that this approach is competitive with several state-of-the-art RL methodologies, and can achieve up-to 50 percent reduction in wall clock time in some continuous control environments.
Abstract（参考訳）: モデルに基づく強化学習(mbrl)のアプローチは、実際には良好な性能を示すが、大きな空間における理論的な保証は、遷移モデルがガウスあるいはリプシッツである場合の設定に制限され、時間とともに表現複雑性が増大しない後方推定を要求する。本研究では,新しいMBRL法を提案する。 i) 対象遷移モデルの仮定を緩和し,混合モデルの一般的なファミリーに属すること。 (ii)後方推定が統計的に有意な過去の状態-作用対のみからなるベイズコアセットからなる圧縮ステップを組み込んだ大規模訓練に適用できる。 (iii) ベイズ亜線形の後悔を示す。これらの結果を達成するために,背後および目標の平滑性条件下での分布距離をカーネル化スタイン差(ksd)として閉じた形で評価できる,stein法に基づくアプローチを採用する。上記の圧縮ステップは、前モデルの推定値から一定の ksd 以上のサンプルのみを厳格に保持するという意味で計算される。実験により、この手法はいくつかの最先端のRL手法と競合し、連続制御環境では壁時計時間を最大50%削減できることがわかった。

関連論文リスト

Navigating Sparse Molecular Data with Stein Diffusion Guidance [48.21071466968102]
最適制御(SOC)は、微調整拡散モデルのための原則的フレームワークとして登場した。予測されたクリーンなサンプルに対して,既成の分類器を用いて拡散モデルを導出する,トレーニング不要な手法のクラスが開発されている。本稿では,サロゲート最適制御目標に基づく新しいトレーニングフリーガイダンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-07T21:14:27Z)
General bounds on the quality of Bayesian coresets [13.497835690074151]
この研究は、KL(Kulback-Leibler)上の一般上界と下界を示す。下限は、コアセット近似の質に関する基本的な制限を得るために適用される。上界は最近のサブサンプル最適化手法の性能解析に使用される。
論文参考訳（メタデータ） (2024-05-20T04:46:14Z)
Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文参考訳（メタデータ） (2024-03-13T20:16:21Z)
One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。 OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文参考訳（メタデータ） (2023-11-27T12:02:42Z)
Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文参考訳（メタデータ） (2023-04-10T17:54:38Z)
Bayesian Pseudo-Coresets via Contrastive Divergence [5.479797073162603]
対照的な発散を利用して擬似コアセットを構築するための新しい手法を提案する。これは擬似コアセット構築プロセスにおける近似の必要性を排除する。複数のデータセットに対して広範な実験を行い、既存のBPC技術よりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T17:13:50Z)
Fast post-process Bayesian inference with Variational Sparse Bayesian Quadrature [13.36200518068162]
本稿では,既存の目標密度評価から高速な後続近似を得る手段として,プロセス後ベイズ推定の枠組みを提案する。この枠組みでは,ブラックボックスと潜在的ノイズの可能性のあるモデルに対して,プロセス後近似推定法である変分スパースベイズ近似(VSBQ)を導入する。本手法は,計算神経科学による難解な合成シナリオと実世界の応用について検証する。
論文参考訳（メタデータ） (2023-03-09T13:58:35Z)
Fast Estimation of Bayesian State Space Models Using Amortized Simulation-Based Inference [0.0]
本稿では,ベイズ状態空間モデルの隠れ状態を推定するための高速アルゴリズムを提案する。事前トレーニングの後、データセットの後方分布を見つけるには、100分の1秒から10分の1秒かかる。
論文参考訳（メタデータ） (2022-10-13T16:37:05Z)
Simplifying Model-based RL: Learning Representations, Latent-space Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文参考訳（メタデータ） (2022-09-18T03:51:58Z)
Training Discrete Deep Generative Models via Gapped Straight-Through Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文参考訳（メタデータ） (2022-06-15T01:46:05Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。