論文の概要: CA-AC-MPC: CUDA-Accelerated Actor-Critic Model Predictive Control
- arxiv url: http://arxiv.org/abs/2605.29155v1
- Date: Wed, 27 May 2026 22:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 00:00:30.936264
- Title: CA-AC-MPC: CUDA-Accelerated Actor-Critic Model Predictive Control
- Title(参考訳): CA-AC-MPC:CUDA加速アクタ・クリティカルモデル予測制御
- Authors: Antoonio Buo, Vittorio Cammarota, Michele Avagnale, Pierluigi Arpenti, Vincenzo Lippiello, Fabio Ruggiero,
- Abstract要約: アクタークリティカルモデル予測制御(AC-MPC)は、MPCと強化学習を統合し、動的システムの高性能制御を可能にする。
本稿では、エンド・ツー・エンドの実行時間を著しく短縮する性能加速型を導入するこのボトルネックに対処する。
アジャイルドローンレースタスクのシミュレーション結果から,我々のアプローチはトレーニング時間と推論時間を短縮して,最先端のラップタイムとほぼ限界に近い動作を実現していることがわかった。
- 参考スコア(独自算出の注目度): 1.893395217315348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the literature, actor-critic model predictive control (AC-MPC) integrates MPC with reinforcement learning to enable high-performance control of complex dynamical systems. However, its differentiable MPC layer requires repeatedly solving an optimization problem in both the forward and backward passes, leading to substantial training and inference latency. This paper tackles this bottleneck introducing a CUDA-accelerated variant that significantly reduces end-to-end execution time while preserving the control performance of the baseline formulation. Simulation results on an agile drone racing task show that our approach achieves state-of-the-art lap times and near-limit dynamic behaviour with markedly reduced training and inference time.
- Abstract(参考訳): 文献では、アクター・クリティカル・モデル予測制御(AC-MPC)は、MPCと強化学習を統合し、複雑な力学系の高性能制御を可能にする。
しかし、その差別化可能なMPC層は、前方パスと後方パスの両方で繰り返し最適化問題を解決し、実質的なトレーニングと推論遅延をもたらす。
本稿では,CUDAの高速化により,ベースライン定式化の制御性能を維持しつつ,エンド・ツー・エンドの実行時間を著しく短縮するこのボトルネックに対処する。
アジャイルドローンレースタスクのシミュレーション結果から,我々の手法は,トレーニング時間と推論時間を著しく短縮した最先端のラップタイムと,ほぼ限界に近いダイナミックな動作を実現する。
関連論文リスト
- Robust Path Tracking for Vehicles via Continuous-Time Residual Learning: An ICODE-MPPI Approach [1.6567880228735359]
モデル予測経路積分(MPPI)制御は、非線形自律システムのための強力なサンプリングベースの戦略である。
本稿では、ICODE-MPPIを提案する。ICODE(Input Concomitant Ordinary Differential Equations)を用いて、モデルなし残差ダイナミクスの学習と補償を行う。
複素軌道上の高忠実度シミュレーションは、ICODE-MPPIが持続的乱れ下でのクロストラック誤差を最大69%減少させることを示した。
論文 参考訳(メタデータ) (2026-05-05T01:20:51Z) - DA-PTQ: Drift-Aware Post-Training Quantization for Efficient Vision-Language-Action Models [61.26694413585136]
DA-PTQ (Drift-Aware Post-Training Quantization) は、逐次決定過程に対するドリフト-アウェア最適化問題として量子化を定式化する。
DA-PTQはキネマティックドリフトを著しく低減し、低ビット設定下での完全精度モデルに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2026-04-13T14:51:43Z) - Cost-Matching Model Predictive Control for Efficient Reinforcement Learning in Humanoid Locomotion [15.125805248577278]
モデル予測制御(MPC)に基づく強化学習フレームワークにおいて,最適なヒューマノイド移動のためのコストマッチング手法を提案する。
高忠実度閉ループデータから得られる作用値関数を近似するために、遠心力学を用いたパラメータ化MPC定式化を訓練する。
その結果, モデルミスマッチと外乱に対するロコモーション性能とロバスト性の改善が示された。
論文 参考訳(メタデータ) (2026-03-30T10:05:15Z) - Fine-Tuning of Neural Network Approximate MPC without Retraining via Bayesian Optimization [81.35990332700389]
近似モデル予測制御(AMPC)は、MPCの動作をニューラルネットワークで模倣することを目的としている。
デプロイメント中、基盤となるMPCのパラメータは通常、微調整されなければならない。
最近の研究は、MPC最適化問題の近似感度を用いてAMPCを調整することなく適用することでこの問題に対処している。
論文 参考訳(メタデータ) (2025-12-16T12:24:08Z) - TS-DP: Reinforcement Speculative Decoding For Temporal Adaptive Diffusion Policy Acceleration [64.32072516882947]
拡散ポリシーは、具体的制御が優れているが、高い推論遅延と計算コストに悩まされている。
時間認識強化に基づく投機的拡散政策(TS-DP)を提案する。
TS-DPは94%以上のドラフトで最大4.17倍高速な推論を実現し、推論周波数は25Hzに達した。
論文 参考訳(メタデータ) (2025-12-13T07:53:14Z) - Bisimulation metric for Model Predictive Control [44.301098448479195]
Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。
BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。
我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
論文 参考訳(メタデータ) (2024-10-06T17:12:10Z) - When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL [37.58940726230092]
離散時間マルコフ決定過程(MDP)の最適化における強化学習(RL)の特長
この課題に対処するRLフレームワークであるTime-Adaptive Control & Sensing(TaCoS)を形式化する。
我々は、TaCoSで訓練された最先端のRLアルゴリズムが、その離散時間に対する相互作用量を劇的に削減できることを実証した。
論文 参考訳(メタデータ) (2024-06-03T09:57:18Z) - Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution [51.83951489847344]
ロボット工学の応用において、スムーズな制御信号はシステム摩耗とエネルギー効率を減らすために一般的に好まれる。
本研究では,離散的な動作空間を粗い状態から細かい制御分解能まで拡大することにより,この性能ギャップを埋めることを目的とする。
我々の研究は、値分解とアダプティブ・コントロール・リゾリューションが組み合わさることで、単純な批判のみのアルゴリズムが得られ、連続制御タスクにおいて驚くほど高い性能が得られることを示唆している。
論文 参考訳(メタデータ) (2024-04-05T17:58:37Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。