Fugu-MT 論文翻訳(概要): Bisimulation metric for Model Predictive Control

論文の概要: Bisimulation metric for Model Predictive Control

arxiv url: http://arxiv.org/abs/2410.04553v1
Date: Sun, 6 Oct 2024 17:12:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 06:46:25.711682
Title: Bisimulation metric for Model Predictive Control
Title（参考訳）: モデル予測制御のためのビシミュレーションメトリック
Authors: Yutaka Shimizu, Masayoshi Tomizuka,
Abstract要約: Bisimulation Metric for Model Predictive Control (BS-MPC) は、目的関数にbisimulation metric lossを組み込んでエンコーダを直接最適化する新しい手法である。 BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。我々は,DeepMind Control Suiteから連続制御および画像ベースタスクのBS-MPCを評価する。
参考スコア（独自算出の注目度）: 44.301098448479195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Model-based reinforcement learning has shown promise for improving sample efficiency and decision-making in complex environments. However, existing methods face challenges in training stability, robustness to noise, and computational efficiency. In this paper, we propose Bisimulation Metric for Model Predictive Control (BS-MPC), a novel approach that incorporates bisimulation metric loss in its objective function to directly optimize the encoder. This time-step-wise direct optimization enables the learned encoder to extract intrinsic information from the original state space while discarding irrelevant details and preventing the gradients and errors from diverging. BS-MPC improves training stability, robustness against input noise, and computational efficiency by reducing training time. We evaluate BS-MPC on both continuous control and image-based tasks from the DeepMind Control Suite, demonstrating superior performance and robustness compared to state-of-the-art baseline methods.
Abstract（参考訳）: モデルに基づく強化学習は、複雑な環境でサンプル効率と意思決定を改善することを約束している。しかし、既存の手法は、訓練の安定性、雑音に対する堅牢性、計算効率の面で課題に直面している。本稿では,モデル予測制御のためのBisimulation Metric for Model Predictive Control (BS-MPC)を提案する。このタイムステップワイド直接最適化により、学習エンコーダは、無関係な詳細を破棄し、勾配やエラーの発散を防止しつつ、元の状態空間から固有の情報を抽出することができる。 BS-MPCは、トレーニング時間を削減することにより、トレーニング安定性、入力ノイズに対する堅牢性、および計算効率を向上させる。我々は、DeepMind Control Suiteから連続制御と画像ベースタスクの両方でBS-MPCを評価し、最先端のベースライン手法と比較して優れた性能とロバスト性を示した。

関連論文リスト

Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。 SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2026-02-01T12:56:10Z)
Domain-Incremental Continual Learning for Robust and Efficient Keyword Spotting in Resource Constrained Systems [0.0]
キーワードエッジデバイスにデプロイされる小さなフットプリントモデルを備えたスポッティングシステムは、かなりの精度と堅牢性に直面する。計算効率を維持しつつ,新しい領域に適応する継続的学習のための包括的フレームワークを提案する。提案したパイプラインは、Mel Frequency Cepstral Coefficients(MFCC)とMel-spectrogram機能の両方を利用して、デュアルインプットの畳み込みニューラルネットワークを統合する。
論文参考訳（メタデータ） (2026-01-22T17:59:31Z)
Deep Reinforcement Learning Optimization for Uncertain Nonlinear Systems via Event-Triggered Robust Adaptive Dynamic Programming [0.3848364262836075]
本研究では,Reinforcement Learning(RL)駆動のコントローラと外乱回避型拡張状態オブザーバ(ESO)を結合した統合制御アーキテクチャを提案する。 ESOは、システム状態とラップされた乱をリアルタイムで推定するために利用され、効果的な乱れ補償の基礎となる。
論文参考訳（メタデータ） (2025-12-05T22:52:22Z)
MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。 textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文参考訳（メタデータ） (2025-10-10T11:40:27Z)
Robust Model Predictive Control Design for Autonomous Vehicles with Perception-based Observers [5.388633782438152]
本稿では、状態推定に使用されるディープラーニングに基づく知覚モジュールに固有の非ガウス雑音を明示的に扱う。セットベースの状態推定と制約付きゾノトープを用いて、偏りのある重み付き不確かさをキャプチャする。知覚認識型MPCは、重音条件下での安定かつ正確な制御性能を提供する。
論文参考訳（メタデータ） (2025-09-05T16:03:57Z)
Leave-One-Out Stable Conformal Prediction [5.573524700758741]
そこで本研究では,サンプル分割を伴わずにアルゴリズム的安定性を用いて完全共形を高速化する手法を提案する。残余の安定性を活用することで,多数の予測要求を処理する上で,我々の手法ははるかに高速である。提案手法は理論的に正当化され,合成および実世界のデータに対して優れた数値性能を示す。
論文参考訳（メタデータ） (2025-04-16T15:44:24Z)
Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。 PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文参考訳（メタデータ） (2024-04-01T07:49:11Z)
PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文参考訳（メタデータ） (2024-03-31T23:46:51Z)
Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。最適モデルの復元が保証される混合整数最適化の定式化を開発する。本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文参考訳（メタデータ） (2024-03-28T22:45:38Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)
Actively Learning Reinforcement Learning: A Stochastic Optimal Control Approach [3.453622106101339]
本研究では,2つの相互に結びついた目的を達成するための枠組みを提案する。 (i) 積極的な探索と意図的な情報収集を伴う強化学習と, (ii) 最適制御法の計算的難易度を克服する枠組みである。我々は、強化学習を用いて最適制御則を計算することにより、両方の目的にアプローチする。一定の探索と搾取バランスとは異なり、学習プロセスが終了しても、警告と探索はリアルタイムでコントローラによって自動的に行われる。
論文参考訳（メタデータ） (2023-09-18T18:05:35Z)
MAPS: A Noise-Robust Progressive Learning Approach for Source-Free Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文参考訳（メタデータ） (2023-02-09T12:06:08Z)
Adaptive Stochastic MPC under Unknown Noise Distribution [19.03553854357296]
我々は、未知の雑音分布の下で、確率状態制約とハード入力制約を対象とする線形システムのMPC問題に対処する。我々は、既知の雑音統計の理想的な設定のために、分布的に頑健で安定なベンチマークSMPCアルゴリズムを設計する。我々はこのベンチマークコントローラを用いて、必要なノイズ統計をオンラインで学習する新しい適応SMPCスキームを導出する。
論文参考訳（メタデータ） (2022-04-03T16:35:18Z)
Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文参考訳（メタデータ） (2020-10-21T17:14:31Z)
Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文参考訳（メタデータ） (2020-04-04T14:16:27Z)
Neural Lyapunov Model Predictive Control: Learning Safe Global Controllers from Sub-optimal Examples [4.777323087050061]
多くの実世界の産業アプリケーションでは、例えば人間の操作者による実行など、既存の制御戦略を持つことが典型的である。この研究の目的は、安全と安定性を維持する新しいコントローラを学習することで、この未知の、安全だが、最適でないポリシーを改善することである。提案アルゴリズムは、端末コストを学習し、安定性基準に従ってMPCパラメータを更新する。
論文参考訳（メタデータ） (2020-02-21T16:57:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。