論文の概要: PISTO: Proximal Inference for Stochastic Trajectory Optimization
- arxiv url: http://arxiv.org/abs/2605.07215v1
- Date: Fri, 08 May 2026 04:04:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.793036
- Title: PISTO: Proximal Inference for Stochastic Trajectory Optimization
- Title(参考訳): PISTO:確率軌道最適化のための近似推論
- Authors: Hongzhe Yu, Zinuo Chang, Yongxin Chen,
- Abstract要約: STOMPはボルツマン軌道分布からのKLの発散を暗黙的に最小化することを示す。
更新を安定化するtextitProximal Inference for Trajectory Optimization (PISTO) アルゴリズムを提案する。
PISTOはロボットアームの動作計画ベンチマークで89%の成功率を達成した。
- 参考スコア(独自算出の注目度): 20.473105594445574
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stochastic trajectory optimization methods like STOMP enable planning with non-differentiable costs, offering substantial flexibility over gradient-based approaches. We show that STOMP implicitly minimizes the KL divergence from a Boltzmann trajectory distribution, revealing an elegant Variational Inference (VI) structure underlying its updates. Building on this insight, we propose the \textit{Proximal Inference for Stochastic Trajectory Optimization} (PISTO) algorithm that stabilizes the updates by augmenting the objective with a KL regularization between successive Gaussian proposals. This proximal formulation admits a trust-region interpretation and yields closed-form mean updates computable as expectations under a surrogate distribution. We estimate these expectations via importance-weighted Monte Carlo sampling, producing a simple, derivative-free algorithm that inherits STOMP's ability to handle non-differentiable and discontinuous costs without modification. On robot arm motion planning benchmarks, PISTO achieves an 89\% success rate -- outperforming CHOMP (63\%) and STOMP (68\%) -- while producing shorter, smoother paths at twice the speed of competing stochastic methods. We further validate PISTO on contact-rich MuJoCo locomotion and manipulation tasks, where it consistently outperforms both CEM and MPPI baselines in reward.
- Abstract(参考訳): STOMPのような確率的軌道最適化手法は、微分不可能なコストで計画を可能にし、勾配に基づくアプローチよりもかなりの柔軟性を提供する。
STOMPはボルツマン軌道分布からのKLの発散を暗黙的に最小化し、その更新の根底にあるエレガントな変分推論(VI)構造を明らかにする。
この知見に基づいて、連続するガウス的提案間のKL正規化により目的を増大させることにより、更新を安定化する「textit{Proximal Inference for Stochastic Trajectory Optimization} (PISTO)」アルゴリズムを提案する。
この近似定式化は、信頼領域の解釈を認め、サロゲート分布の下で期待として計算可能な閉形式平均更新を与える。
重要度重み付きモンテカルロサンプリングを用いてこれらの期待を推定し、STOMPの非微分可能かつ不連続なコストを変更せずに処理する、単純で微分自由なアルゴリズムを作成した。
ロボットアームの動作計画ベンチマークでは、PISTOは89 %の成功率 -- CHOMP(63 %)とSTOMP(68 %)を上回り、競合する確率的手法の2倍の速度で、より短く滑らかなパスを生成する。
さらに,コンタクトリッチな MuJoCo の移動および操作タスクにおいて PISTO を検証し,CEM と MPPI のベースラインを常に上回っている。
関連論文リスト
- DRAFTO: Decoupled Reduced-space and Adaptive Feasibility-repair Trajectory Optimization for Robotic Manipulators [4.0407133618465005]
本稿では、トラジェクトリ最適化のための新しいアルゴリズム、Decoupled Reduced-spaceとAdaptive Feasibility-Repair Trajectory Optimization (DRAFTO)を提案する。
連立限界実現性を扱いながら繰り返し制約された最適化の回数を減らすため、最適化を低空間ガウスニュートン(Gass-Newton, GN)降下に分離する。
CHOMP, TrajOpt, GPMP2, FACTOなどの最適化型プランナに対するベンチマークテストの結果, 様々なシナリオやタスクにおいて高い効率性と信頼性が検証された。
論文 参考訳(メタデータ) (2026-03-10T20:24:42Z) - Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - Adaptive Linear Path Model-Based Diffusion [52.84663832658799]
リニアパスモデルベース拡散(LP-MBD)を導入し、分散保存スケジュールをフローマッチング線形確率パスに置き換える。
また,適応型LP-MBD(ALP-MBD)を提案し,タスクの複雑さや環境条件に応じて拡散ステップやノイズレベルを調整する。
論文 参考訳(メタデータ) (2026-02-02T21:33:03Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - A Stochastic Approach to Bi-Level Optimization for Hyperparameter Optimization and Meta Learning [74.80956524812714]
我々は,現代のディープラーニングにおいて広く普及している一般的なメタ学習問題に対処する。
これらの問題は、しばしばBi-Level Optimizations (BLO)として定式化される。
我々は,与えられたBLO問題を,内部損失関数が滑らかな分布となり,外損失が内部分布に対する期待損失となるようなii最適化に変換することにより,新たな視点を導入する。
論文 参考訳(メタデータ) (2024-10-14T12:10:06Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Learning Sampling Distributions for Model Predictive Control [36.82905770866734]
モデル予測制御(MPC)に対するサンプリングに基づくアプローチは、MPCに対する現代のアプローチの基盤となっている。
我々は、学習された分布を最大限に活用できるように、潜在空間における全ての操作を実行することを提案する。
具体的には、学習問題を双方向の最適化として捉え、バックプロパゲーションスルータイムでコントローラをトレーニングする方法を示す。
論文 参考訳(メタデータ) (2022-12-05T20:35:36Z) - Online Probabilistic Model Identification using Adaptive Recursive MCMC [8.465242072268019]
適応再帰的マルコフ連鎖モンテカルロ法(ARMCMC)を提案する。
モデルパラメータの確率密度関数全体を計算しながら、従来のオンライン手法の欠点を解消する。
本研究では,ソフト曲げアクチュエータとハント・クロスリー動的モデルを用いてパラメータ推定を行った。
論文 参考訳(メタデータ) (2022-10-23T02:06:48Z) - Optimization of Annealed Importance Sampling Hyperparameters [77.34726150561087]
Annealed Importance Smpling (AIS) は、深層生成モデルの難易度を推定するために使われる一般的なアルゴリズムである。
本稿では、フレキシブルな中間分布を持つパラメータAISプロセスを提案し、サンプリングに少ないステップを使用するようにブリッジング分布を最適化する。
我々は, 最適化AISの性能評価を行い, 深部生成モデルの限界推定を行い, 他の推定値と比較した。
論文 参考訳(メタデータ) (2022-09-27T07:58:25Z) - Variational Refinement for Importance Sampling Using the Forward
Kullback-Leibler Divergence [77.06203118175335]
変分推論(VI)はベイズ推論における正確なサンプリングの代替として人気がある。
重要度サンプリング(IS)は、ベイズ近似推論手順の推定を微調整し、偏りを逸脱するためにしばしば用いられる。
近似ベイズ推論のための最適化手法とサンプリング手法の新たな組み合わせを提案する。
論文 参考訳(メタデータ) (2021-06-30T11:00:24Z) - Minibatch and Momentum Model-based Methods for Stochastic Non-smooth
Non-convex Optimization [3.4809730725241597]
モデルベース手法に対する2つの重要な拡張を行う。
まず,各イテレーションのモデル関数を近似するために,サンプルの集合を用いる新しいミニバッチを提案する。
第二に、運動量法の成功により、新しい凸モデルを提案する。
論文 参考訳(メタデータ) (2021-06-06T05:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。