論文の概要: Reinforced sequential Monte Carlo for amortised sampling
- arxiv url: http://arxiv.org/abs/2510.11711v1
- Date: Mon, 13 Oct 2025 17:59:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.503471
- Title: Reinforced sequential Monte Carlo for amortised sampling
- Title(参考訳): 補充サンプリングのための強化シーケンシャルモンテカルロ
- Authors: Sanghyeok Choi, Sarthak Mittal, Víctor Elvira, Jinkyoo Park, Nikolay Malkin,
- Abstract要約: 我々は、最大エントロピー強化学習(MaxEnt RL)により訓練されたシーケンシャルモンテカルロ(SMC)とニューラルシーケンシャルサンプリングとの接続を述べる。
本稿では,提案関数とツイスト関数の安定な連成訓練手法と,トレーニング信号のばらつきを低減するための適応重み付け方式について述べる。
- 参考スコア(独自算出の注目度): 49.92678178064033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a synergy of amortised and particle-based methods for sampling from distributions defined by unnormalised density functions. We state a connection between sequential Monte Carlo (SMC) and neural sequential samplers trained by maximum-entropy reinforcement learning (MaxEnt RL), wherein learnt sampling policies and value functions define proposal kernels and twist functions. Exploiting this connection, we introduce an off-policy RL training procedure for the sampler that uses samples from SMC -- using the learnt sampler as a proposal -- as a behaviour policy that better explores the target distribution. We describe techniques for stable joint training of proposals and twist functions and an adaptive weight tempering scheme to reduce training signal variance. Furthermore, building upon past attempts to use experience replay to guide the training of neural samplers, we derive a way to combine historical samples with annealed importance sampling weights within a replay buffer. On synthetic multi-modal targets (in both continuous and discrete spaces) and the Boltzmann distribution of alanine dipeptide conformations, we demonstrate improvements in approximating the true distribution as well as training stability compared to both amortised and Monte Carlo methods.
- Abstract(参考訳): 本稿では,非正規化密度関数で定義される分布から粒子をサンプリングするアモルト化法と粒子法を相乗的に提案する。
我々は,最大エントロピー強化学習 (MaxEnt RL) で学習した逐次モンテカルロ (SMC) とニューラルシーケンシャルサンプリングの接続を述べる。
このコネクションをエクスプロイトし、ターゲットの分布をよりよく調査する行動ポリシーとして、SMCのサンプル(学習サンプルを提案として使用)を使用するサンプルに対して、非政治的なRLトレーニング手順を導入します。
本稿では,提案関数とツイスト関数の安定な連成訓練手法と,トレーニング信号のばらつきを低減するための適応重み付け方式について述べる。
さらに,過去の経験的リプレイを用いてニューラルサンプリングのトレーニングをガイドしようとする試みにより,過去のサンプルとアニールによる重要サンプリング重量をリプレイバッファ内で組み合わせる手法が考案された。
合成マルチモーダルターゲット(連続空間と離散空間の両方)とアラニンジペプチド配座のボルツマン分布について、アモールト化法およびモンテカルロ法と比較して真の分布の近似およびトレーニング安定性の向上を実証する。
関連論文リスト
- TFTF: Training-Free Targeted Flow for Conditional Sampling [1.4151684142137693]
重要度サンプリングに基づくフローマッチングモデルのための訓練不要条件付きサンプリング手法を提案する。
重要サンプリングのネーブ適用は高次元環境における重み付けに苦しむため, 連続モンテカルロにおける再サンプリング手法を改良し, 取り入れる。
私たちのフレームワークは、理論上の正確性を確保しながら、追加のトレーニングを必要としません。
論文 参考訳(メタデータ) (2026-02-13T13:41:35Z) - Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - Amortized Sampling with Transferable Normalizing Flows [65.48838168417564]
プロス(英: Prose)は、ペプチド分子動力学のコーパスで訓練された、最大8個の残基の移動可能な正規化フローである。
本稿では, Prose が様々なサンプリングアルゴリズムの提案であることを示す。
我々はProseデータセットをオープンソース化し、償却されたサンプリング手法と微調整目的の研究をさらに促進する。
論文 参考訳(メタデータ) (2025-08-25T16:28:18Z) - Non-equilibrium Annealed Adjoint Sampler [27.73022309947818]
SOCを用いた新しい拡散サンプリング装置である textbfNon-equilibrium Annealed Adjoint Sampler (NAAS) を導入する。
NAASは、アジョイントマッチングにインスパイアされたリーンアジョイントシステムを採用し、効率的でスケーラブルなトレーニングを可能にしている。
論文 参考訳(メタデータ) (2025-06-22T20:41:31Z) - Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。
本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-04T17:46:51Z) - Generalized Bayesian deep reinforcement learning [2.469908534801392]
マルコフ依存を前提として,未知環境のダイナミクスを深層生成モデルを用いてモデル化することを提案する。
これらのモデルに可能性関数が存在しない場合、一般化された予測順序(または述語)スコアリング規則(SR)を学習して訓練する。
政策学習では,後部分布に関する期待値関数を最大化することにより,最適な政策を学習するためのトンプソンサンプリング(ETS)を提案する。
論文 参考訳(メタデータ) (2024-12-16T13:02:17Z) - Adaptive teachers for amortized samplers [76.88721198565861]
そこで,本研究では,初等無罪化標本作成者(学生)の指導を指導する適応的学習分布(教師)を提案する。
本研究では, この手法の有効性を, 探索課題の提示を目的とした合成環境において検証する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Stochastic Localization via Iterative Posterior Sampling [2.1383136715042417]
我々は、一般的なローカライゼーションフレームワークを検討し、フレキシブルなdenoisingスケジュールに関連する観察プロセスの明示的なクラスを導入する。
我々は、このダイナミクスの近似的なサンプルを得るために、SLIPS (Iterative Posterior Sampling$) による完全な方法論である $textitStochastic Localization を提供する。
SLIPSの利点と適用性について,数種類のマルチモーダル分布のベンチマークで論じる。例えば,増加次元の混合,ロジスティック回帰,統計力学からの高次元場システムなどである。
論文 参考訳(メタデータ) (2024-02-16T15:28:41Z) - Improved off-policy training of diffusion samplers [93.66433483772055]
本研究では,非正規化密度やエネルギー関数を持つ分布からサンプルを抽出する拡散モデルの訓練問題について検討する。
シミュレーションに基づく変分法や非政治手法など,拡散構造推論手法のベンチマークを行った。
我々の結果は、過去の研究の主張に疑問を投げかけながら、既存のアルゴリズムの相対的な利点を浮き彫りにした。
論文 参考訳(メタデータ) (2024-02-07T18:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。