論文の概要: Offline Supervised Learning V.S. Online Direct Policy Optimization: A
Comparative Study and A Unified Training Paradigm for Neural Network-Based
Optimal Feedback Control
- arxiv url: http://arxiv.org/abs/2211.15930v2
- Date: Sat, 5 Aug 2023 09:48:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 00:41:05.387882
- Title: Offline Supervised Learning V.S. Online Direct Policy Optimization: A
Comparative Study and A Unified Training Paradigm for Neural Network-Based
Optimal Feedback Control
- Title(参考訳): オフライン監視学習V.S.オンライン直接政策最適化:ニューラルネットワークに基づく最適フィードバック制御のための比較研究と統一学習パラダイム
- Authors: Yue Zhao, Jiequn Han
- Abstract要約: まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの主要なアプローチの比較研究を行う。
本結果は、最適性とトレーニング時間の両方の観点から、オフライン教師あり学習の優先順位を強調した。
最適フィードバック制御のための統一訓練パラダイムとして,プレトレインとファインチューン戦略を提案する。
- 参考スコア(独自算出の注目度): 8.860943042492847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work is concerned with solving neural network-based feedback controllers
efficiently for optimal control problems. We first conduct a comparative study
of two mainstream approaches: offline supervised learning and online direct
policy optimization. Albeit the training part of the supervised learning
approach is relatively easy, the success of the method heavily depends on the
optimal control dataset generated by open-loop optimal control solvers. In
contrast, direct optimization turns the optimal control problem into an
optimization problem directly without any requirement of pre-computing, but the
dynamics-related objective can be hard to optimize when the problem is
complicated. Our results highlight the priority of offline supervised learning
in terms of both optimality and training time. To overcome the main challenges,
dataset, and optimization, in the two approaches respectively, we complement
them and propose the Pre-train and Fine-tune strategy as a unified training
paradigm for optimal feedback control, which further improves the performance
and robustness significantly. Our code is available at
https://github.com/yzhao98/DeepOptimalControl.
- Abstract(参考訳): この研究は、最適制御問題に対してニューラルネットワークベースのフィードバックコントローラを効率的に解くことを目的としている。
まず,オフライン教師付き学習とオンライン直接政策最適化の2つのアプローチの比較研究を行った。
教師付き学習アプローチの学習部は比較的容易であるが、この手法の成功はオープンループ最適制御ソルバによって生成される最適制御データセットに大きく依存する。
対照的に、直接最適化は、最適制御問題を事前計算の必要なしに直接最適化問題に変換するが、ダイナミクスに関連した目的は、問題を複雑にしたときの最適化が困難である。
本研究は,オフライン教師付き学習の優先度を,最適性と訓練時間という観点で強調する。
これらの課題,データセット,最適化を克服するために,これらを補完し,最適フィードバック制御のための統一トレーニングパラダイムとして事前訓練と微調整戦略を提案し,パフォーマンスとロバスト性をさらに向上させる。
私たちのコードはhttps://github.com/yzhao98/DeepOptimalControlで利用可能です。
関連論文リスト
- An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Learning Constrained Optimization with Deep Augmented Lagrangian Methods [60.94111369773497]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers:
An Analogical Analysis with Gradient-based Model Optimizers [115.2038169433773]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - A Nonstochastic Control Approach to Optimization [26.744354103012448]
制御前提条件からの最近の手法が凸ノリティの課題を克服できることを示す。
メソッドのクラスから、類似の結果を後見で得る方法を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-19T06:08:01Z) - Introduction to Online Nonstochastic Control [65.18774760752588]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。
このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文 参考訳(メタデータ) (2022-02-08T19:13:13Z) - Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive
Control [0.0]
値空間とロールアウトの近似に関するAlphaZero/TDGammonの原理が決定論的かつ最適制御問題に広く適用されていることを示す。
これらの考え方は、モデル制御、適応制御、分散制御、ニューラルネットワークに基づく値とポリシー近似など、他の重要な方法論と効果的に統合することができる。
論文 参考訳(メタデータ) (2021-08-20T19:17:35Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。