論文の概要: Imitation Learning from Nonlinear MPC via the Exact Q-Loss and its
Gauss-Newton Approximation
- arxiv url: http://arxiv.org/abs/2304.01782v1
- Date: Mon, 3 Apr 2023 09:24:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 13:49:13.386461
- Title: Imitation Learning from Nonlinear MPC via the Exact Q-Loss and its
Gauss-Newton Approximation
- Title(参考訳): 特殊Q-ロスによる非線形MPCからの模倣学習とそのガウスニュートン近似
- Authors: Andrea Ghezzi, Jasper Hoffman, Jonathan Frey, Joschka Boedecker,
Moritz Diehl
- Abstract要約: 本研究は,Imitation Learningを介して非線形モデル予測制御ポリシーを学習するための新しい損失関数を提案する。
模倣学習の標準的なアプローチは、専門家に関する情報を無視し、専門家と学習したコントロールの間の距離に基づいた損失関数を一般的に採用する。
- 参考スコア(独自算出の注目度): 7.7284638009499025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents a novel loss function for learning nonlinear Model
Predictive Control policies via Imitation Learning. Standard approaches to
Imitation Learning neglect information about the expert and generally adopt a
loss function based on the distance between expert and learned controls. In
this work, we present a loss based on the Q-function directly embedding the
performance objectives and constraint satisfaction of the associated Optimal
Control Problem (OCP). However, training a Neural Network with the Q-loss
requires solving the associated OCP for each new sample. To alleviate the
computational burden, we derive a second Q-loss based on the Gauss-Newton
approximation of the OCP resulting in a faster training time. We validate our
losses against Behavioral Cloning, the standard approach to Imitation Learning,
on the control of a nonlinear system with constraints. The final results show
that the Q-function-based losses significantly reduce the amount of constraint
violations while achieving comparable or better closed-loop costs.
- Abstract(参考訳): 本稿では, 模倣学習による非線形モデル予測制御方針学習のための新しい損失関数を提案する。
模倣学習の標準的なアプローチは、専門家に関する情報を無視し、専門家と学習したコントロールの間の距離に基づいた損失関数を採用する。
そこで本研究では,提案する最適制御問題(ocp)の性能目標と制約満足度を直接埋め込んだq関数に基づく損失を提案する。
しかし、ニューラルネットワークをQ-lossでトレーニングするには、新しいサンプルごとに関連するOCPを解決する必要がある。
計算負荷を軽減するため,OCPのガウス・ニュートン近似に基づいて第2のQ損失を導出し,学習時間を短縮する。
我々は,制約のある非線形システムの制御において,模倣学習の標準的アプローチである行動クローンに対する損失を検証する。
最終結果は、Q関数に基づく損失は、同等あるいはより良い閉ループコストを達成する一方で、制約違反の量を大幅に減少させることを示した。
関連論文リスト
- Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Mitigating Privacy Risk in Membership Inference by Convex-Concave Loss [16.399746814823025]
機械学習モデルは、トレーニングセットにサンプルがあるかどうかを推測することを目的とした、メンバシップ推論攻撃(MIA)の影響を受けやすい。
既存の作業では、勾配上昇を利用してトレーニングデータの損失分散を拡大し、プライバシリスクを軽減する。
本稿では,勾配降下によるトレーニング損失分布の分散化を可能にする新しい手法であるConvex-Concave Lossを提案する。
論文 参考訳(メタデータ) (2024-02-08T07:14:17Z) - Improving Parameter Training for VQEs by Sequential Hamiltonian Assembly [4.646930308096446]
量子機械学習における中心的な課題は、パラメータ化量子回路(PQC)の設計と訓練である。
局所成分を用いて損失関数を反復的に近似する逐次ハミルトンアセンブリを提案する。
提案手法は,従来のパラメータトレーニングを29.99%,実証的手法であるレイヤワイズラーニングを5.12%,平均精度を5.12%向上させる。
論文 参考訳(メタデータ) (2023-12-09T11:47:32Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Offline Minimax Soft-Q-learning Under Realizability and Partial Coverage [100.8180383245813]
オフライン強化学習(RL)のための値ベースアルゴリズムを提案する。
ソフトマージン条件下でのバニラQ関数の類似した結果を示す。
我々のアルゴリズムの損失関数は、推定問題を非線形凸最適化問題とラグランジフィケーションとしてキャストすることによって生じる。
論文 参考訳(メタデータ) (2023-02-05T14:22:41Z) - Data-driven initialization of deep learning solvers for
Hamilton-Jacobi-Bellman PDEs [3.249853429482705]
状態依存型 Riccati 方程式制御法は、まず、教師付き学習のための勾配拡張合成データセットを生成するために用いられる。
得られたモデルは、HJB PDEの残量に基づく損失関数の最小化のためのウォームスタートとなる。
論文 参考訳(メタデータ) (2022-07-19T14:34:07Z) - On Finite-Sample Analysis of Offline Reinforcement Learning with Deep
ReLU Networks [46.067702683141356]
深層RELUネットワークを用いたオフライン強化学習の統計理論について検討する。
我々は,オフラインデータの分布変化,入力空間の次元,システムの正則性がOPE推定誤差を制御する方法の定量化を行う。
論文 参考訳(メタデータ) (2021-03-11T14:01:14Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z) - Characterizing the loss landscape of variational quantum circuits [77.34726150561087]
本稿では,VQCの損失関数のヘシアンを計算する方法を紹介する。
この情報がどのように解釈され、従来のニューラルネットワークと比較されるかを示す。
論文 参考訳(メタデータ) (2020-08-06T17:48:12Z) - Q-Learning with Differential Entropy of Q-Tables [4.221871357181261]
我々は、Q-ラーニングの長期トレーニングセッションにおけるパフォーマンスの低下は、情報の喪失によって引き起こされると推測する。
本稿では,Q-ラーニングアルゴリズムに外部情報損失検出器として,Q-tables(DE-QT)の微分エントロピーを導入する。
論文 参考訳(メタデータ) (2020-06-26T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。