論文の概要: Model Predictive Path Integral PID Control for Learning-Based Path Following
- arxiv url: http://arxiv.org/abs/2603.29499v1
- Date: Tue, 31 Mar 2026 09:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.465023
- Title: Model Predictive Path Integral PID Control for Learning-Based Path Following
- Title(参考訳): 学習経路追従のためのモデル予測経路積分PID制御
- Authors: Teruki Kato, Koshi Oishi, Seigo Ito,
- Abstract要約: 本研究では,各制御ステップにおけるPIDゲインの最適化にMPPIを適用したモデル予測経路積分(MPPI)制御を提案する。
この定式化により試料効率が向上し、PID構造を介してよりスムーズな入力が得られる。
- 参考スコア(独自算出の注目度): 0.688204255655161
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Classical proportional--integral--derivative (PID) control is widely employed in industrial applications; however, achieving higher performance often motivates the adoption of model predictive control (MPC). Although gradient-based methods are the standard for real-time optimization, sampling-based approaches have recently gained attention. In particular, model predictive path integral (MPPI) control enables gradient-free optimization and accommodates non-differentiable models and objective functions. However, directly sampling control input sequences may yield discontinuous inputs and increase the optimization dimensionality in proportion to the prediction horizon. This study proposes MPPI--PID control, which applies MPPI to optimize PID gains at each control step, thereby replacing direct high-dimensional input-sequence optimization with low-dimensional gain-space optimization. This formulation enhances sample efficiency and yields smoother inputs via the PID structure. We also provide theoretical insights, including an information-theoretic interpretation that unifies MPPI and MPPI--PID, an analysis of the effect of optimization dimensionality on sample efficiency, and a characterization of input continuity induced by the PID structure. The proposed method is evaluated on the learning-based path following of a mini forklift using a residual-learning dynamics model that integrates a physical model with a neural network. System identification is performed with real driving data. Numerical path-following experiments demonstrate that MPPI--PID improves tracking performance compared with fixed-gain PID and achieves performance comparable to conventional MPPI while significantly reducing input increments. Furthermore, the proposed method maintains favorable performance even with substantially fewer samples, demonstrating its improved sample efficiency.
- Abstract(参考訳): 古典的比例-積分-デリバティブ(PID)制御は産業用途に広く採用されているが、高い性能を達成することはしばしばモデル予測制御(MPC)の導入を動機付けている。
勾配に基づく手法がリアルタイム最適化の標準となっているが、サンプリングに基づく手法が近年注目されている。
特に、モデル予測経路積分(MPPI)制御は、勾配のない最適化を可能にし、微分不可能なモデルと目的関数を許容する。
しかし、直接サンプリング制御入力シーケンスは不連続な入力をもたらし、予測水平線に比例して最適化次元を増加させる可能性がある。
本研究では,MPPIを用いたMPPI-PID制御により各制御ステップのPIDゲインを最適化し,直接高次元入力列最適化を低次元ゲイン空間最適化に置き換える手法を提案する。
この定式化により試料効率が向上し、PID構造を介してよりスムーズな入力が得られる。
また,MPPIとMPPI-PIDを統一する情報理論的解釈,サンプル効率に対する最適化次元の影響の解析,PID構造による入力継続性の評価など,理論的知見も提供する。
ニューラルネットワークと物理モデルを統合した残差学習力学モデルを用いて,ミニフォークリフトの学習経路に基づく評価を行った。
実運転データを用いてシステム識別を行う。
数値経路追従実験により,MPPI-PIDは固定ゲインPIDと比較してトラッキング性能が向上し,従来のMPPIに匹敵する性能が得られた。
さらに, 提案手法は, 試料効率の向上を実証し, 極めて少ないサンプルでも良好な性能を保っている。
関連論文リスト
- P^2O: Joint Policy and Prompt Optimization [74.45293488495592]
RLVR(Reinforcement Learning with Verifiable Rewards)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
プロンプト最適化とポリシー最適化を相乗化する新しいフレームワークであるP2Oを提案する。
論文 参考訳(メタデータ) (2026-03-23T12:08:47Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - Data-Driven Adaptive PID Control Based on Physics-Informed Neural Networks [0.0]
本稿では適応利得最適化の原理に基づくデータ駆動型PIDコントローラの設計を提案する。
提案手法は、PINNの自動微分により達成されるPIDゲイン最適化の勾配を利用する。
論文 参考訳(メタデータ) (2025-10-06T08:46:20Z) - A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。
拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。
以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文 参考訳(メタデータ) (2025-03-02T13:43:53Z) - Unifying Model Predictive Path Integral Control, Reinforcement Learning, and Diffusion Models for Optimal Control and Planning [6.871390204787483]
我々は,Gibs測度の勾配に基づく最適化により,MPPI,RL,拡散モデルを結ぶ統一的な視点を確立する。
まず,MPPIをスムーズなエネルギー関数上の勾配上昇として解釈できることを示す。
次に、目的関数に指数変換を適用することにより、ポリシー勾配法がMPPIに還元されることを実証する。
論文 参考訳(メタデータ) (2025-02-27T19:26:36Z) - Sample-efficient Iterative Lower Bound Optimization of Deep Reactive
Policies for Planning in Continuous MDPs [27.41101006357176]
本研究では,最小化-最大化の観点から反復的に最適化する。
w.r.t.は局所的に厳密な下界の目的である。
反復的下界最適化(ILBO)としての学習の新たな定式化は、(i)各ステップが全体目標よりも構造的に容易に最適化できるため、特に魅力的である。
実験的な評価により、ILBOは最先端のプランナーよりもはるかに試料効率が高いことが確認された。
論文 参考訳(メタデータ) (2022-03-23T19:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。