論文の概要: Model-Driven Policy Optimization in Differentiable Simulators via Stochastic Exploration
- arxiv url: http://arxiv.org/abs/2605.07520v1
- Date: Fri, 08 May 2026 09:52:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.976187
- Title: Model-Driven Policy Optimization in Differentiable Simulators via Stochastic Exploration
- Title(参考訳): 確率的探索による微分可能シミュレータのモデル駆動型政策最適化
- Authors: Yuval Aroosh, Ayal Taitler,
- Abstract要約: 微分可能な計画法は、システム力学の微分可能なモデルを活用することにより、決定問題の勾配に基づく最適化を可能にする。
本稿では,モデル駆動型政策最適化(MDPO)を提案する。
- 参考スコア(独自算出の注目度): 2.062593640149623
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentiable planning enables gradient-based optimization of decision-making problems by leveraging differentiable models of system dynamics. However, in highly nonlinear and hybrid discrete-continuous domains, the resulting optimization landscapes are often ill-conditioned, with flat regions and sharp transitions that hinder effective optimization. We propose Model-Driven Policy Optimization (MDPO), a framework that introduces stochastic exploration into differentiable planning by injecting noise into the action space during optimization. Leveraging access to the model, MDPO further adapts the noise magnitude based on gradient-derived sensitivity of the trajectory objective, yielding a time-dependent exploration profile. This enables improved exploration of the objective landscape and helps escape poor local optima via dynamic allocation of exploration across timesteps and iterations. Experiments on benchmark domains demonstrate that MDPO consistently outperforms deterministic differentiable planning, including both the noise-free variant of our method and available state-of-the-art implementations, as well as model-free baselines such as PPO, significantly improving solution quality across challenging nonlinear and hybrid settings. We further analyze the evolution of the adaptive noise magnitude across both time steps and optimization iterations, providing insight into how exploration is allocated during learning.
- Abstract(参考訳): 微分可能な計画法は、システム力学の微分可能なモデルを活用することにより、決定問題の勾配に基づく最適化を可能にする。
しかし、高非線形かつハイブリッドな離散連続領域では、結果として生じる最適化の展望は、しばしば不条件であり、平坦な領域と鋭い遷移が効果的な最適化を妨げる。
本稿では,モデル駆動型政策最適化(MDPO)を提案する。
MDPOは、モデルへのアクセスを活用することで、軌道目標の勾配依存性に基づいて雑音の大きさを調整し、時間依存探索プロファイルを生成する。
これにより、客観的なランドスケープの探索を改善することができ、タイムステップとイテレーションをまたいだ探索を動的に割り当てることで、ローカルな最適化から逃れることができます。
ベンチマーク領域の実験では、MDPOは、我々の手法のノイズフリー変種と最先端実装の両方を含む決定論的微分可能計画よりも、PPOのようなモデルフリーのベースラインを一貫して上回り、難解な非線形およびハイブリッド設定のソリューション品質を著しく向上させることを示した。
さらに、時間ステップと最適化イテレーションの両方で適応雑音の大きさの進化を分析し、学習中に探索がどのように割り当てられるかを洞察する。
関連論文リスト
- Sampling-Based Control via Entropy-Regularized Optimal Transport [18.278741443124655]
OT-MPCは、エントロピー規則化された最適輸送定式化によって制限を克服するサンプリングベースのアルゴリズムである。
我々は、Sinkhornアルゴリズムを用いて、クローズドな勾配のない更新を導出し、リアルタイムな性能を実現する。
論文 参考訳(メタデータ) (2026-05-04T02:07:15Z) - Dynamic Momentum Recalibration in Online Gradient Learning [6.6375578955686345]
Gradient Descent(SGD)とその運動量変化は、ディープラーニング最適化のバックボーンを形成する。
本研究では信号処理のレンズを通して勾配の更新を再解釈し、固定運動量係数が本質的にバイアスと分散のバランスを歪め、歪んだあるいは最適以下のパラメータの更新をもたらすことを明らかにする。
SGDF(SGD with Filter)を提案する。
論文 参考訳(メタデータ) (2026-03-06T10:23:40Z) - TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。
本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T12:57:39Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Preference-Guided Diffusion for Multi-Objective Offline Optimization [64.08326521234228]
オフライン多目的最適化のための優先誘導拡散モデルを提案する。
我々の指導は、ある設計が他の設計を支配する確率を予測するために訓練された選好モデルである。
本結果は,多種多様な高品質な解を生成する上での分類器誘導拡散モデルの有効性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-03-21T16:49:38Z) - Nonmyopic Global Optimisation via Approximate Dynamic Programming [14.389086937116582]
我々はIDWとRBFに基づくグローバルな最適化に適した新しい非筋力的獲得戦略を導入する。
具体的には、ロールアウトやマルチステップシナリオベースの最適化スキームを含む動的プログラミングベースのパラダイムを開発する。
論文 参考訳(メタデータ) (2024-12-06T09:25:00Z) - Ensemble Kalman Filtering Meets Gaussian Process SSM for Non-Mean-Field and Online Inference [47.460898983429374]
我々は,非平均場(NMF)変動推定フレームワークにアンサンブルカルマンフィルタ(EnKF)を導入し,潜在状態の後方分布を近似する。
EnKFとGPSSMのこの新しい結婚は、変分分布の学習における広範なパラメータ化の必要性をなくすだけでなく、エビデンスの下限(ELBO)の解釈可能でクローズドな近似を可能にする。
得られたEnKF支援オンラインアルゴリズムは、データ適合精度を確保しつつ、モデル正規化を組み込んで過度適合を緩和し、目的関数を具現化する。
論文 参考訳(メタデータ) (2023-12-10T15:22:30Z) - Real-Time Optimization Meets Bayesian Optimization and Derivative-Free
Optimization: A Tale of Modifier Adaptation [0.0]
本稿では,不確実なプロセスのリアルタイム最適化において,プラントモデルミスマッチを克服するための修飾子適応方式について検討する。
提案したスキームは物理モデルを組み込んでおり、探査中のリスクを最小限に抑えるために信頼領域のアイデアに依存している。
取得関数の使用、プロセスノイズレベルを知る、または名目上のプロセスモデルを指定する利点を図示する。
論文 参考訳(メタデータ) (2020-09-18T12:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。