論文の概要: Bisimulation metric for Model Predictive Control
- arxiv url: http://arxiv.org/abs/2410.04553v1
- Date: Sun, 6 Oct 2024 17:12:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 06:46:25.711682
- Title: Bisimulation metric for Model Predictive Control
- Title(参考訳): モデル予測制御のためのビシミュレーションメトリック
- Authors: Yutaka Shimizu, Masayoshi Tomizuka,
- Abstract要約: Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。
BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。
我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
- 参考スコア(独自算出の注目度): 44.301098448479195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning has shown promise for improving sample efficiency and decision-making in complex environments. However, existing methods face challenges in training stability, robustness to noise, and computational efficiency. In this paper, we propose Bisimulation Metric for Model Predictive Control (BS-MPC), a novel approach that incorporates bisimulation metric loss in its objective function to directly optimize the encoder. This time-step-wise direct optimization enables the learned encoder to extract intrinsic information from the original state space while discarding irrelevant details and preventing the gradients and errors from diverging. BS-MPC improves training stability, robustness against input noise, and computational efficiency by reducing training time. We evaluate BS-MPC on both continuous control and image-based tasks from the DeepMind Control Suite, demonstrating superior performance and robustness compared to state-of-the-art baseline methods.
- Abstract(参考訳): モデルに基づく強化学習は、複雑な環境でサンプル効率と意思決定を改善することを約束している。
しかし、既存の手法は、訓練の安定性、雑音に対する堅牢性、計算効率の面で課題に直面している。
本稿では,モデル予測制御のためのBisimulation Metric for Model Predictive Control (BS-MPC)を提案する。
このタイムステップワイド直接最適化により、学習エンコーダは、無関係な詳細を破棄し、勾配やエラーの発散を防止しつつ、元の状態空間から固有の情報を抽出することができる。
BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。
我々は、DeepMind Control Suiteから連続制御と画像ベースタスクの両方でBS-MPCを評価し、最先端のベースライン手法と比較して優れた性能とロバスト性を示した。
関連論文リスト
- Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。
我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。
提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文 参考訳(メタデータ) (2024-03-31T23:46:51Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。
我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。
一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文 参考訳(メタデータ) (2023-09-18T18:05:35Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Adaptive Stochastic MPC under Unknown Noise Distribution [19.03553854357296]
我々は、未知の雑音分布の下で、確率状態制約とハード入力制約を対象とする線形システムのMPC問題に対処する。
我々は、既知の雑音統計の理想的な設定のために、分布的に頑健で安定なベンチマークSMPCアルゴリズムを設計する。
我々はこのベンチマークコントローラを用いて、必要なノイズ統計をオンラインで学習する新しい適応SMPCスキームを導出する。
論文 参考訳(メタデータ) (2022-04-03T16:35:18Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Neural Lyapunov Model Predictive Control: Learning Safe Global
Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。
この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。
提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文 参考訳(メタデータ) (2020-02-21T16:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。