論文の概要: Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics
- arxiv url: http://arxiv.org/abs/2604.21456v1
- Date: Thu, 23 Apr 2026 09:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.402007
- Title: Tempered Sequential Monte Carlo for Trajectory and Policy Optimization with Differentiable Dynamics
- Title(参考訳): 微分力学による軌道と政策最適化のための連続モンテカルロ
- Authors: Heng Yang,
- Abstract要約: そこで本研究では,有限水平軌道のサンプリングに基づくフレームワークと,微分可能な動的条件下でのポリシー最適化を提案する。
政策最適化のために, (i) 初期状態分布の決定論的経験的近似, (ii) ロールアウトランダム性を補助変数として扱う拡張空間構成を用いてTSMCを拡張した。
トラジェクトリ最適化およびポリシー最適化ベンチマークによる実験では、TSMCは広く適用可能であり、最先端のベースラインと好適に比較されている。
- 参考スコア(独自算出の注目度): 5.415983152637643
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a sampling-based framework for finite-horizon trajectory and policy optimization under differentiable dynamics by casting controller design as inference. Specifically, we minimize a KL-regularized expected trajectory cost, which yields an optimal "Boltzmann-tilted" distribution over controller parameters that concentrates on low-cost solutions as temperature decreases. To sample efficiently from this sharp, potentially multimodal target, we introduce tempered sequential Monte Carlo (TSMC): an annealing scheme that adaptively reweights and resamples particles along a tempering path from a prior to the target distribution, while using Hamiltonian Monte Carlo rejuvenation to maintain diversity and exploit exact gradients obtained by differentiating through trajectory rollouts. For policy optimization, we extend TSMC via (i) a deterministic empirical approximation of the initial-state distribution and (ii) an extended-space construction that treats rollout randomness as auxiliary variables. Experiments across trajectory- and policy-optimization benchmarks show that TSMC is broadly applicable and compares favorably to state-of-the-art baselines.
- Abstract(参考訳): 制御器設計を推論としてキャストすることで, 微分可能力学の下での有限水平軌道とポリシー最適化のためのサンプリングベースフレームワークを提案する。
具体的には、KL規則化された予測軌道コストを最小化し、温度が低下するにつれて低コストの解に集中する制御パラメータよりも最適な「ボルツマンタイル」分布を得る。
この鋭く、潜在的に多モーダルなターゲットから効率的に試料を採取するために、熱処理された連続モンテカルロ (TSMC: tempered sequence Monte Carlo) を導入する。
政策最適化のためには、TSMCを拡張します。
一 初期状態分布の確定的経験近似
(ii)ロールアウトランダムネスを補助変数として扱う拡張空間構成。
トラジェクトリ最適化およびポリシー最適化ベンチマークによる実験では、TSMCは広く適用可能であり、最先端のベースラインと好適に比較されている。
関連論文リスト
- Diffusion Alignment Beyond KL: Variance Minimisation as Effective Policy Optimiser [35.260598916253635]
可変最小化政策最適化(VMPO)について紹介する。
VMPOは、ログの重みの分散を最小限に抑えるために拡散アライメントを定式化する。
ポテンシャル関数と分散最小化戦略の異なる選択の下で、VMPOは様々な既存メソッドを復元する。
論文 参考訳(メタデータ) (2026-02-12T18:06:03Z) - Reinforced sequential Monte Carlo for amortised sampling [49.92678178064033]
我々は、最大エントロピー強化学習(MaxEnt RL)により訓練されたシーケンシャルモンテカルロ(SMC)とニューラルシーケンシャルサンプリングとの接続を述べる。
本稿では,提案関数とツイスト関数の安定な連成訓練手法と,トレーニング信号のばらつきを低減するための適応重み付け方式について述べる。
論文 参考訳(メタデータ) (2025-10-13T17:59:11Z) - Inference-Time Scaling of Discrete Diffusion Models via Importance Weighting and Optimal Proposal Design [17.7006862812979]
本稿では、離散拡散モデルのスケーラブルな推論時間制御を可能にするシークエンシャルモンテカルロフレームワークを提案する。
具体的には,様々な中間目標に対するトラクタブルな重み付けを導出し,最適提案を特徴付ける。
合成タスク,言語モデリング,生物学設計,テキスト・ツー・イメージ生成といった実験結果から,我々のフレームワークが制御性やサンプルの品質を向上させることを示す。
論文 参考訳(メタデータ) (2025-05-28T16:12:03Z) - Policy Gradients for Optimal Parallel Tempering MCMC [0.276240219662896]
並列テンパリング(英: Parallel tempering)は、マルコフ・チェイン・モンテカルロ(Markov Chain Monte Carlo)のメタアルゴリズムである。
本稿では,政策勾配法を用いてサンプリング中の温度を動的に調整する適応温度選択アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-03T03:12:45Z) - Adaptive Annealed Importance Sampling with Constant Rate Progress [68.8204255655161]
Annealed Importance Smpling (AIS)は、抽出可能な分布から重み付けされたサンプルを合成する。
本稿では,alpha$-divergencesに対する定数レートAISアルゴリズムとその効率的な実装を提案する。
論文 参考訳(メタデータ) (2023-06-27T08:15:28Z) - Differentiating Metropolis-Hastings to Optimize Intractable Densities [51.16801956665228]
我々はメトロポリス・ハスティングス検層の自動識別アルゴリズムを開発した。
難解な対象密度に対する期待値として表現された目的に対して勾配に基づく最適化を適用する。
論文 参考訳(メタデータ) (2023-06-13T17:56:02Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。
ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。
さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文 参考訳(メタデータ) (2020-12-28T05:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。