論文の概要: Regret Analysis: a control perspective
- arxiv url: http://arxiv.org/abs/2501.04572v3
- Date: Thu, 23 Jan 2025 14:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-24 15:55:06.219352
- Title: Regret Analysis: a control perspective
- Title(参考訳): 回帰分析 : 制御の観点から
- Authors: Travis E. Gibson, Sawal Acharya,
- Abstract要約: 適応制御では、通常は2つの目的がある: 1) システムの全ての時間変化パラメータ/状態が有界であること、2) 適応制御されたシステムと参照システムの間の瞬時にエラーが時間とともに0(または少なくともコンパクトな集合)に収束すること。
オンライン学習において、アルゴリズムのパフォーマンスは、しばしばアルゴリズムが生み出す後悔によって特徴づけられる。
本稿では,凸関数の勾配降下の後悔に基づく解析と,ストリーミング回帰問題の制御に基づく解析を通して,これらの相違点を詳細に論じる。
- 参考スコア(独自算出の注目度): 0.4604003661048266
- License:
- Abstract: Online learning and model reference adaptive control have many interesting intersections. One area where they differ however is in how the algorithms are analyzed and what objective or metric is used to discriminate "good" algorithms from "bad" algorithms. In adaptive control there are usually two objectives: 1) prove that all time varying parameters/states of the system are bounded, and 2) that the instantaneous error between the adaptively controlled system and a reference system converges to zero over time (or at least a compact set). For online learning the performance of algorithms is often characterized by the regret the algorithm incurs. Regret is defined as the cumulative loss (cost) over time from the online algorithm minus the cumulative loss (cost) of the single optimal fixed parameter choice in hindsight. Another significant difference between the two areas of research is with regard to the assumptions made in order to obtain said results. Adaptive control makes assumptions about the input-output properties of the control problem and derives solutions for a fixed error model or optimization task. In the online learning literature results are derived for classes of loss functions (i.e. convex) while a priori assuming certain signals are bounded. In this work we discuss these differences in detail through the regret based analysis of gradient descent for convex functions and the control based analysis of a streaming regression problem. We close with a discussion about the newly defined paradigm of online adaptive control.
- Abstract(参考訳): オンライン学習とモデル参照適応制御は多くの興味深い交差点を持っている。
しかし、それらが異なる分野の1つは、アルゴリズムがどのように分析され、「良い」アルゴリズムと「悪い」アルゴリズムを区別するためにどのような目的または計量が使用されるかである。
適応制御では、通常2つの目的がある。
1) システムの全ての時間変化パラメータ/状態が有界であることを証明し、
2) 適応制御系と参照系との間の即時誤差は時間とともにゼロ(あるいは少なくともコンパクト集合)に収束する。
オンライン学習において、アルゴリズムのパフォーマンスは、しばしばアルゴリズムが生み出す後悔によって特徴づけられる。
Regretは、オンラインアルゴリズムからの時間的累積損失(コスト)として定義される。
2つの研究領域の間には別の重要な違いは、これらの結果を得るために行われた仮定に関するものである。
適応制御は、制御問題の入出力特性を仮定し、固定エラーモデルや最適化タスクの解を導出する。
オンライン学習文献では、ある信号が有界であると仮定した事前条件が、損失関数のクラス(すなわち凸)に対して導出される。
本稿では,凸関数の勾配降下の後悔に基づく解析と,ストリーミング回帰問題の制御に基づく解析を通して,これらの相違点を詳細に論じる。
我々は、新たに定義されたオンライン適応制御のパラダイムについて議論した。
関連論文リスト
- Accelerated zero-order SGD under high-order smoothness and overparameterized regime [79.85163929026146]
凸最適化問題を解くための新しい勾配のないアルゴリズムを提案する。
このような問題は医学、物理学、機械学習で発生する。
両種類の雑音下で提案アルゴリズムの収束保証を行う。
論文 参考訳(メタデータ) (2024-11-21T10:26:17Z) - A successive approximation method in functional spaces for hierarchical optimal control problems and its application to learning [0.0]
本研究では,高次元非線形関数をモデル化するための点推定の学習問題について考察する。
デューコースにおける推定パラメータは、異なるモデル検証データセット上で許容できる予測精度を提供する。
最適化段階における一般化と正規化の両方を適切に考慮する枠組みを提供する。
論文 参考訳(メタデータ) (2024-10-27T22:28:07Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z) - Data-Driven H-infinity Control with a Real-Time and Efficient
Reinforcement Learning Algorithm: An Application to Autonomous
Mobility-on-Demand Systems [3.5897534810405403]
本稿では,線形離散時間系のH$_infty$制御を解くために,モデルフリー,リアルタイム,データ効率のQ-ラーニングに基づくアルゴリズムを提案する。
適応最適制御器を設計し、システムダイナミクスの知識を必要とせず、アクションと批評家ネットワークのパラメータをオンラインで学習する。
論文 参考訳(メタデータ) (2023-09-16T05:02:41Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Finite-time System Identification and Adaptive Control in Autoregressive
Exogenous Systems [79.67879934935661]
未知のARXシステムのシステム識別と適応制御の問題について検討する。
我々は,オープンループとクローズループの両方のデータ収集の下で,ARXシステムに対する有限時間学習保証を提供する。
論文 参考訳(メタデータ) (2021-08-26T18:00:00Z) - Logarithmic Regret Bound in Partially Observable Linear Dynamical
Systems [91.43582419264763]
部分的に観測可能な線形力学系におけるシステム同定と適応制御の問題について検討する。
開ループ系と閉ループ系の両方において有限時間保証付きの最初のモデル推定法を提案する。
AdaptOnは、未知の部分観測可能な線形力学系の適応制御において、$textpolylogleft(Tright)$ regretを達成する最初のアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-03-25T06:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。