論文の概要: Reinforced sequential Monte Carlo for amortised sampling
- arxiv url: http://arxiv.org/abs/2510.11711v1
- Date: Mon, 13 Oct 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.503471
- Title: Reinforced sequential Monte Carlo for amortised sampling
- Title(参考訳): 補充サンプリングのための強化シーケンシャルモンテカルロ
- Authors: Sanghyeok Choi, Sarthak Mittal, Víctor Elvira, Jinkyoo Park, Nikolay Malkin,
- Abstract要約: 我々は、最大エントロピー強化学習(MaxEnt RL)により訓練されたシーケンシャルモンテカルロ(SMC)とニューラルシーケンシャルサンプリングとの接続を述べる。
本稿では,提案関数とツイスト関数の安定な連成訓練手法と,トレーニング信号のばらつきを低減するための適応重み付け方式について述べる。
- 参考スコア(独自算出の注目度): 49.92678178064033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a synergy of amortised and particle-based methods for sampling from distributions defined by unnormalised density functions. We state a connection between sequential Monte Carlo (SMC) and neural sequential samplers trained by maximum-entropy reinforcement learning (MaxEnt RL), wherein learnt sampling policies and value functions define proposal kernels and twist functions. Exploiting this connection, we introduce an off-policy RL training procedure for the sampler that uses samples from SMC -- using the learnt sampler as a proposal -- as a behaviour policy that better explores the target distribution. We describe techniques for stable joint training of proposals and twist functions and an adaptive weight tempering scheme to reduce training signal variance. Furthermore, building upon past attempts to use experience replay to guide the training of neural samplers, we derive a way to combine historical samples with annealed importance sampling weights within a replay buffer. On synthetic multi-modal targets (in both continuous and discrete spaces) and the Boltzmann distribution of alanine dipeptide conformations, we demonstrate improvements in approximating the true distribution as well as training stability compared to both amortised and Monte Carlo methods.
- Abstract(参考訳): 本稿では,非正規化密度関数で定義される分布から粒子をサンプリングするアモルト化法と粒子法を相乗的に提案する。
我々は,最大エントロピー強化学習 (MaxEnt RL) で学習した逐次モンテカルロ (SMC) とニューラルシーケンシャルサンプリングの接続を述べる。
このコネクションをエクスプロイトし、ターゲットの分布をよりよく調査する行動ポリシーとして、SMCのサンプル(学習サンプルを提案として使用)を使用するサンプルに対して、非政治的なRLトレーニング手順を導入します。
本稿では,提案関数とツイスト関数の安定な連成訓練手法と,トレーニング信号のばらつきを低減するための適応重み付け方式について述べる。
さらに,過去の経験的リプレイを用いてニューラルサンプリングのトレーニングをガイドしようとする試みにより,過去のサンプルとアニールによる重要サンプリング重量をリプレイバッファ内で組み合わせる手法が考案された。
合成マルチモーダルターゲット(連続空間と離散空間の両方)とアラニンジペプチド配座のボルツマン分布について、アモールト化法およびモンテカルロ法と比較して真の分布の近似およびトレーニング安定性の向上を実証する。
関連論文リスト
- Non-equilibrium Annealed Adjoint Sampler [27.73022309947818]
SOCを用いた新しい拡散サンプリング装置である textbfNon-equilibrium Annealed Adjoint Sampler (NAAS) を導入する。
NAASは、アジョイントマッチングにインスパイアされたリーンアジョイントシステムを採用し、効率的でスケーラブルなトレーニングを可能にしている。
論文 参考訳(メタデータ) (2025-06-22T20:41:31Z) - Generalized Bayesian deep reinforcement learning [2.469908534801392]
マルコフ依存を前提として,未知環境のダイナミクスを深層生成モデルを用いてモデル化することを提案する。
これらのモデルに可能性関数が存在しない場合、一般化された予測順序(または述語)スコアリング規則(SR)を学習して訓練する。
政策学習では,後部分布に関する期待値関数を最大化することにより,最適な政策を学習するためのトンプソンサンプリング(ETS)を提案する。
論文 参考訳(メタデータ) (2024-12-16T13:02:17Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Stochastic Localization via Iterative Posterior Sampling [2.1383136715042417]
我々は、一般的なローカライゼーションフレームワークを検討し、フレキシブルなdenoisingスケジュールに関連する観察プロセスの明示的なクラスを導入する。
我々は、このダイナミクスの近似的なサンプルを得るために、SLIPS (Iterative Posterior Sampling$) による完全な方法論である $textitStochastic Localization を提供する。
SLIPSの利点と適用性について,数種類のマルチモーダル分布のベンチマークで論じる。例えば,増加次元の混合,ロジスティック回帰,統計力学からの高次元場システムなどである。
論文 参考訳(メタデータ) (2024-02-16T15:28:41Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。