論文の概要: Regret Analysis of Online Gradient Descent-based Iterative Learning
Control with Model Mismatch
- arxiv url: http://arxiv.org/abs/2204.04722v1
- Date: Sun, 10 Apr 2022 16:35:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 10:45:34.862517
- Title: Regret Analysis of Online Gradient Descent-based Iterative Learning
Control with Model Mismatch
- Title(参考訳): モデルミスマッチを用いたオンライン勾配降下型反復学習制御の後悔解析
- Authors: Efe C. Balta, Andrea Iannelli, Roy S. Smith, John Lygeros
- Abstract要約: 不正確な勾配情報を用いたオンライン勾配差に基づくスキームの性能を解析した。
本手法の基本的限界と適応機構との統合について検討した。
- 参考スコア(独自算出の注目度): 4.922572106422331
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Iterative Learning Control (ILC), a sequence of feedforward control
actions is generated at each iteration on the basis of partial model knowledge
and past measurements with the goal of steering the system toward a desired
reference trajectory. This is framed here as an online learning task, where the
decision-maker takes sequential decisions by solving a sequence of optimization
problems having only partial knowledge of the cost functions. Having
established this connection, the performance of an online gradient-descent
based scheme using inexact gradient information is analyzed in the setting of
dynamic and static regret, standard measures in online learning. Fundamental
limitations of the scheme and its integration with adaptation mechanisms are
further investigated, followed by numerical simulations on a benchmark ILC
problem.
- Abstract(参考訳): 反復学習制御(ilc)では、所望の基準軌道に向けてシステムを制御することを目的として、部分的モデル知識と過去の測定に基づいて、各イテレーションでフィードフォワード制御アクションのシーケンスを生成する。
ここでは、コスト関数の部分的知識しか持たない最適化問題の系列を解くことによって、意思決定者が順次決定を行うオンライン学習タスクとして構成されている。
この関係を確立したことにより,オンライン学習における標準的尺度である動的かつ静的な後悔の設定において,不正確な勾配情報を用いたオンライン・グラデーション・ディセント・スキームの性能を解析した。
本手法の基本限界と適応機構との統合についてさらに検討し, ベンチマークirc問題に対する数値シミュレーションを行った。
関連論文リスト
- Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Integrating Reinforcement Learning and Model Predictive Control with Applications to Microgrids [14.389086937116582]
本研究では,強化学習とモデル予測制御(MPC)を統合し,混合力学系における最適制御問題の解法を提案する。
提案手法は, MPC手法のオンライン計算時間を著しく短縮し, 最適性ギャップが小さく, 実現可能性が高いポリシーを生成する。
論文 参考訳(メタデータ) (2024-09-17T15:17:16Z) - Model-Agnostic Zeroth-Order Policy Optimization for Meta-Learning of Ergodic Linear Quadratic Regulators [13.343937277604892]
エルゴード線形二次規制器における不確実性と不均一性を扱うためにメタラーニングを用いることの問題点について検討する。
本稿では,不均一だが類似の線形力学系を学習するタスクに適用可能なポリシヘシアンの推定を省略するアルゴリズムを提案する。
メタオブジェクトの勾配の有界性と滑らかさを解析することにより、正確な勾配降下過程の収束結果を提供する。
論文 参考訳(メタデータ) (2024-05-27T17:26:36Z) - MPC of Uncertain Nonlinear Systems with Meta-Learning for Fast Adaptation of Neural Predictive Models [6.031205224945912]
ニューラル状態空間モデル(NSSM)は、ディープエンコーダネットワークがデータから非線形性を学ぶ非線形系を近似するために用いられる。
これにより非線形系を潜在空間の線形系に変換し、モデル予測制御(MPC)を用いて効果的な制御動作を決定する。
論文 参考訳(メタデータ) (2024-04-18T11:29:43Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [43.64498536409903]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z) - Adaptive Control and Regret Minimization in Linear Quadratic Gaussian
(LQG) Setting [91.43582419264763]
我々は不確実性に直面した楽観主義の原理に基づく新しい強化学習アルゴリズムLqgOptを提案する。
LqgOptはシステムのダイナミクスを効率的に探索し、モデルのパラメータを信頼区間まで推定し、最も楽観的なモデルのコントローラをデプロイする。
論文 参考訳(メタデータ) (2020-03-12T19:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。