論文の概要: Variance-Reduced Model Predictive Path Integral via Quadratic Model Approximation
- arxiv url: http://arxiv.org/abs/2602.03639v1
- Date: Tue, 03 Feb 2026 15:23:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.142759
- Title: Variance-Reduced Model Predictive Path Integral via Quadratic Model Approximation
- Title(参考訳): 擬似モデル近似による可変モデル予測経路の積分
- Authors: Fabian Schramm, Franki Nguimatsia Tiofack, Nicolas Perrin-Gilbert, Marc Toussaint, Justin Carpentier,
- Abstract要約: 本稿では,事前モデルをサンプリングプロセスに統合したハイブリッド分散再生MPPIフレームワークを提案する。
本研究では,2次近似を適用すれば,情報領域のサンプルを効果的に濃縮する閉形式モデルガイダンスの導出が可能になることを実証する。
- 参考スコア(独自算出の注目度): 18.217598791860684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling-based controllers, such as Model Predictive Path Integral (MPPI) methods, offer substantial flexibility but often suffer from high variance and low sample efficiency. To address these challenges, we introduce a hybrid variance-reduced MPPI framework that integrates a prior model into the sampling process. Our key insight is to decompose the objective function into a known approximate model and a residual term. Since the residual captures only the discrepancy between the model and the objective, it typically exhibits a smaller magnitude and lower variance than the original objective. Although this principle applies to general modeling choices, we demonstrate that adopting a quadratic approximation enables the derivation of a closed-form, model-guided prior that effectively concentrates samples in informative regions. Crucially, the framework is agnostic to the source of geometric information, allowing the quadratic model to be constructed from exact derivatives, structural approximations (e.g., Gauss- or Quasi-Newton), or gradient-free randomized smoothing. We validate the approach on standard optimization benchmarks, a nonlinear, underactuated cart-pole control task, and a contact-rich manipulation problem with non-smooth dynamics. Across these domains, we achieve faster convergence and superior performance in low-sample regimes compared to standard MPPI. These results suggest that the method can make sample-based control strategies more practical in scenarios where obtaining samples is expensive or limited.
- Abstract(参考訳): モデル予測パス積分(MPPI)法のようなサンプリングベースのコントローラは、かなりの柔軟性を提供するが、しばしば高いばらつきと低いサンプル効率に悩まされる。
これらの課題に対処するために,従来のモデルをサンプリングプロセスに統合したハイブリッド分散再生MPPIフレームワークを導入する。
我々の重要な洞察は、目的関数を既知の近似モデルと残留項に分解することである。
残差はモデルと目的との差のみを捉えているため、通常、元の目的よりも小さい大きさと低い分散を示す。
この原理は一般的なモデリング選択に適用されるが、二次近似を採用することで、情報領域のサンプルを効果的に集中させる閉形式モデル誘導前の導出が可能になることを実証する。
重要なことに、このフレームワークは幾何情報のソースに無関係であり、二次モデルを正確な微分、構造近似(例えば、ガウスあるいは準ニュートン)、勾配のないランダムな滑らか化から構築することができる。
提案手法は,標準最適化ベンチマーク,非線形で不活性なカートポール制御タスク,非滑らかなダイナミックスを用いた接触リッチな操作問題に対する検証である。
これらの領域全体では、標準MPPIと比較して、低サンプリング方式でより高速な収束と優れた性能を実現している。
これらの結果から,サンプル取得が高価あるいは限定的なシナリオにおいて,サンプルベースの制御戦略をより実用的なものにすることが可能であることが示唆された。
関連論文リスト
- Bridge Matching Sampler: Scalable Sampling via Generalized Fixed-Point Diffusion Matching [38.70740405520393]
Bridge Matching Sampler (BMS)は、任意の事前分布と目標分布の間のトランスポートマップを、単一でスケーラブルで安定した目的で学習することを可能にする。
本手法は, 複雑な合成密度と高次元分子ベンチマークの最先端結果が得られるとともに, モードの多様性を保ちながら, 前例のないスケールでのサンプリングが可能であることを実証した。
論文 参考訳(メタデータ) (2026-02-28T08:00:38Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Minimax Optimality of the Probability Flow ODE for Diffusion Models [8.15094483029656]
この研究は、決定論的ODEベースのサンプリングのための最初のエンドツーエンド理論フレームワークを開発する。
L2$のスコア誤差と関連する平均ジャコビアン誤差の両方を同時に制御するスムーズな正規化スコア推定器を提案する。
得られたサンプルは全変動距離, 変調対数係数において最小値が得られることを示す。
論文 参考訳(メタデータ) (2025-03-12T17:51:29Z) - Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。
本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-04T17:46:51Z) - On the Laplace Approximation as Model Selection Criterion for Gaussian Processes [6.990493129893112]
ラプラス近似に基づく複数の指標を導入する。
実験により、我々のメトリクスはゴールド標準の動的ネストサンプリングに匹敵する品質を示している。
論文 参考訳(メタデータ) (2024-03-14T09:28:28Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Probabilistic Circuits for Variational Inference in Discrete Graphical
Models [101.28528515775842]
変分法による離散的グラフィカルモデルの推論は困難である。
エビデンス・ロウアーバウンド(ELBO)を推定するためのサンプリングに基づく多くの手法が提案されている。
Sum Product Networks (SPN) のような確率的回路モデルのトラクタビリティを活用する新しい手法を提案する。
選択的SPNが表現的変動分布として適していることを示し、対象モデルの対数密度が重み付けされた場合、対応するELBOを解析的に計算可能であることを示す。
論文 参考訳(メタデータ) (2020-10-22T05:04:38Z) - Maximum Entropy Model Rollouts: Fast Model Based Policy Optimization
without Compounding Errors [10.906666680425754]
我々は、最大エントロピーモデルロールアウト(MEMR)と呼ばれるダイナスタイルモデルに基づく強化学習アルゴリズムを提案する。
複雑なエラーをなくすために、我々はモデルを使って単一ステップのロールアウトを生成する。
論文 参考訳(メタデータ) (2020-06-08T21:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。