論文の概要: Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control
- arxiv url: http://arxiv.org/abs/2301.00497v3
- Date: Fri, 31 Mar 2023 16:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 10:38:09.637146
- Title: Efficient Online Learning with Memory via Frank-Wolfe Optimization:
Algorithms with Bounded Dynamic Regret and Applications to Control
- Title(参考訳): Frank-Wolfe 最適化による効率的なオンライン学習:動的レギュレット境界付きアルゴリズムと制御への応用
- Authors: Hongyu Zhou, Zirui Xu, Vasileios Tzoumas
- Abstract要約: 動的後悔を最小限に抑えるメモリ付きプロジェクションフリーなメタベース学習アルゴリズムを提案する。
私たちは、自律的なエージェントが時間によって変化する環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
- 参考スコア(独自算出の注目度): 15.588080817106563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Projection operations are a typical computation bottleneck in online
learning. In this paper, we enable projection-free online learning within the
framework of Online Convex Optimization with Memory (OCO-M) -- OCO-M captures
how the history of decisions affects the current outcome by allowing the online
learning loss functions to depend on both current and past decisions.
Particularly, we introduce the first projection-free meta-base learning
algorithm with memory that minimizes dynamic regret, i.e., that minimizes the
suboptimality against any sequence of time-varying decisions. We are motivated
by artificial intelligence applications where autonomous agents need to adapt
to time-varying environments in real-time, accounting for how past decisions
affect the present. Examples of such applications are: online control of
dynamical systems; statistical arbitrage; and time series prediction. The
algorithm builds on the Online Frank-Wolfe (OFW) and Hedge algorithms. We
demonstrate how our algorithm can be applied to the online control of linear
time-varying systems in the presence of unpredictable process noise. To this
end, we develop a controller with memory and bounded dynamic regret against any
optimal time-varying linear feedback control policy. We validate our algorithm
in simulated scenarios of online control of linear time-invariant systems.
- Abstract(参考訳): 投影操作はオンライン学習における典型的な計算ボトルネックである。
本稿では,OCO-M(Online Convex Optimization with Memory)のフレームワーク内でのプロジェクションフリーなオンライン学習を可能にする。OCO-Mは,オンライン学習損失関数が現在および過去の意思決定に依存することを許すことで,意思決定履歴が現在の結果にどのように影響するかをキャプチャする。
特に,動的後悔を最小化するメモリを持つ最初のプロジェクションフリーメタベース学習アルゴリズムを導入する。
私たちは、自律エージェントがリアルタイムに時間変動環境に適応する必要がある人工知能アプリケーションによって動機付けられています。
そのような応用例としては、動的システムのオンライン制御、統計仲裁、時系列予測などがある。
このアルゴリズムは、Online Frank-Wolfe(OFW)とHedgeアルゴリズムに基づいている。
本稿では,予測不能なプロセスノイズの存在下で,線形時間変化システムのオンライン制御にアルゴリズムを適用する方法を示す。
そこで我々は,任意の時間変動線形フィードバック制御ポリシーに対して,メモリと有界な動的後悔を伴うコントローラを開発した。
線形時間不変システムのオンライン制御をシミュレートしたシナリオでアルゴリズムを検証する。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Smoothed Online Learning for Prediction in Piecewise Affine Systems [43.64498536409903]
本稿では,最近開発されたスムーズなオンライン学習フレームワークに基づく。
これは、断片的なアフィン系における予測とシミュレーションのための最初のアルゴリズムを提供する。
論文 参考訳(メタデータ) (2023-01-26T15:54:14Z) - Learning to Control under Time-Varying Environment [18.48729114775298]
本稿では,線形時間変化(LTV)力学系における後悔の問題について検討する。
提案するオンラインアルゴリズムは, 計算に難易度を保証した最初のオンラインアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-06T11:40:46Z) - Online Control of Unknown Time-Varying Dynamical Systems [48.75672260851758]
非確率制御モデルにおいて、未知のダイナミクスを持つ時間変化線形系のオンライン制御について検討する。
本研究では,反省行動 (SLS) や反省反応 (Youla) , 線形フィードバック政策 (線形フィードバックポリシー) といった一般的な政策のクラスに関して, 後悔すべき境界について検討する。
論文 参考訳(メタデータ) (2022-02-16T06:57:14Z) - Online estimation and control with optimal pathlength regret [52.28457815067461]
オンライン学習アルゴリズムを設計する際の自然なゴールは、入力シーケンスの時間的変動の観点から、アルゴリズムの後悔を束縛することである。
OCOや盗賊など、さまざまなオンライン学習問題に対して、データ依存の「病的」後悔境界が最近取得されている。
論文 参考訳(メタデータ) (2021-10-24T22:43:15Z) - Contextual Inverse Optimization: Offline and Online Learning [3.6739949215165164]
オフラインとオンラインのコンテキスト最適化の問題について,フィードバック情報を用いて検討する。
我々は後悔を最小限に抑えることを目指しており、これは我々の損失と全知の託宣によって引き起こされた損失との違いとして定義される。
論文 参考訳(メタデータ) (2021-06-26T13:09:52Z) - An Online Learning Approach to Optimizing Time-Varying Costs of AoI [26.661352924641285]
通信ネットワーク上でのソースのタイムリーな監視を必要とするシステムについて検討する。
単一のソース監視問題に対して、後見の最良の固定ポリシーと比較して、サブ線形後悔を実現するアルゴリズムを設計する。
複数ソーススケジューリング問題に対して、Follow-the-Perturbed-Whittle-Leaderと呼ばれる新しいオンライン学習アルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-05-27T18:10:56Z) - Non-stationary Online Learning with Memory and Non-stochastic Control [71.14503310914799]
我々は,過去の決定に依拠する損失関数を許容するメモリを用いたオンライン凸最適化(OCO)の問題について検討する。
本稿では,非定常環境に対してロバストなアルゴリズムを設計するための性能指標として,動的ポリシーの後悔を紹介する。
我々は,時間的地平線,非定常度,メモリ長といった面で,最適な動的ポリシーの後悔を確実に享受するメモリ付きOCOの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-07T09:45:15Z) - Anticipating the Long-Term Effect of Online Learning in Control [75.6527644813815]
AntLerは、学習を予想する学習ベースの制御法則の設計アルゴリズムである。
AntLer は確率 1 と任意に最適な解を近似することを示す。
論文 参考訳(メタデータ) (2020-07-24T07:00:14Z) - Online Reinforcement Learning Control by Direct Heuristic Dynamic
Programming: from Time-Driven to Event-Driven [80.94390916562179]
時間駆動学習は、新しいデータが到着すると予測モデルのパラメータを継続的に更新する機械学習手法を指す。
ノイズなどの重要なシステムイベントによる時間駆動型dHDPの更新を防止することが望ましい。
イベント駆動型dHDPアルゴリズムは,従来の時間駆動型dHDPと比較して動作することを示す。
論文 参考訳(メタデータ) (2020-06-16T05:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。