論文の概要: Offline Supervised Learning V.S. Online Direct Policy Optimization: A
Comparative Study and A Unified Training Paradigm for Neural Network-Based
Optimal Feedback Control
- arxiv url: http://arxiv.org/abs/2211.15930v1
- Date: Tue, 29 Nov 2022 05:07:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 17:05:50.547035
- Title: Offline Supervised Learning V.S. Online Direct Policy Optimization: A
Comparative Study and A Unified Training Paradigm for Neural Network-Based
Optimal Feedback Control
- Title(参考訳): オフライン監視学習V.S.オンライン直接政策最適化:ニューラルネットワークに基づく最適フィードバック制御のための比較研究と統一学習パラダイム
- Authors: Yue Zhao, Jiequn Han
- Abstract要約: まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの主要なアプローチの比較研究を行う。
本結果は、最適性とトレーニング時間の両方の観点から、オフライン教師あり学習の優先順位を強調した。
最適フィードバック制御のための統一訓練パラダイムとして,プレトレインとファインチューン戦略を提案する。
- 参考スコア(独自算出の注目度): 8.860943042492847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work is concerned with solving neural network-based feedback controllers
efficiently for optimal control problems. We first conduct a comparative study
of two mainstream approaches: offline supervised learning and online direct
policy optimization. Albeit the training part of the supervised learning
approach is relatively easy, the success of the method heavily depends on the
optimal control dataset generated by open-loop optimal control solvers. In
contrast, direct optimization turns the optimal control problem into an
optimization problem directly without any requirement of pre-computing, but the
dynamics-related objective can be hard to optimize when the problem is
complicated. Our results highlight the priority of offline supervised learning
in terms of both optimality and training time. To overcome the main challenges,
dataset, and optimization, in the two approaches respectively, we complement
them and propose the Pre-train and Fine-tune strategy as a unified training
paradigm for optimal feedback control, which further improves the performance
and robustness significantly. Our code is available at
https://github.com/yzhao98/DeepOptimalControl.
- Abstract(参考訳): この研究は、最適制御問題に対してニューラルネットワークベースのフィードバックコントローラを効率的に解くことを目的としている。
まず,オフライン教師付き学習とオンライン直接政策最適化の2つのアプローチの比較研究を行った。
教師付き学習アプローチの学習部は比較的容易であるが、この手法の成功はオープンループ最適制御ソルバによって生成される最適制御データセットに大きく依存する。
対照的に、直接最適化は、最適制御問題を事前計算の必要なしに直接最適化問題に変換するが、ダイナミクスに関連した目的は、問題を複雑にしたときの最適化が困難である。
本研究は,オフライン教師付き学習の優先度を,最適性と訓練時間という観点で強調する。
これらの課題,データセット,最適化を克服するために,これらを補完し,最適フィードバック制御のための統一トレーニングパラダイムとして事前訓練と微調整戦略を提案し,パフォーマンスとロバスト性をさらに向上させる。
私たちのコードはhttps://github.com/yzhao98/DeepOptimalControlで利用可能です。
関連論文リスト
- Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。
本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-07T19:52:14Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - An Efficient Learning-based Solver Comparable to Metaheuristics for the
Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。
まず,方向対応型注意モデル(DaAM)を提案する。
第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文 参考訳(メタデータ) (2024-03-11T02:17:42Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - A Nonstochastic Control Approach to Optimization [26.744354103012448]
制御前提条件からの最近の手法が凸ノリティの課題を克服できることを示す。
メソッドのクラスから、類似の結果を後見で得る方法を学ぶことができる。
論文 参考訳(メタデータ) (2023-01-19T06:08:01Z) - Introduction to Online Nonstochastic Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。
目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文 参考訳(メタデータ) (2022-11-17T16:12:45Z) - Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文 参考訳(メタデータ) (2022-10-10T16:13:34Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive
Control [0.0]
値空間とロールアウトの近似に関するAlphaZero/TDGammonの原理が決定論的かつ最適制御問題に広く適用されていることを示す。
これらの考え方は、モデル制御、適応制御、分散制御、ニューラルネットワークに基づく値とポリシー近似など、他の重要な方法論と効果的に統合することができる。
論文 参考訳(メタデータ) (2021-08-20T19:17:35Z) - Learning Event-triggered Control from Data through Joint Optimization [7.391641422048646]
イベントトリガー制御戦略のモデルフリー学習のためのフレームワークを提案する。
階層的強化学習に基づく新しいアルゴリズムを提案する。
得られたアルゴリズムは, 資源の節約や非線形・高次元システムへのシームレスなスケールで, 高性能な制御を実現する。
論文 参考訳(メタデータ) (2020-08-11T14:15:38Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。