Fugu-MT 論文翻訳(概要): Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control

論文の概要: Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control

arxiv url: http://arxiv.org/abs/2211.15930v2
Date: Sat, 5 Aug 2023 09:48:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-09 00:41:05.387882
Title: Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control
Title（参考訳）: オフライン監視学習V.S.オンライン直接政策最適化:ニューラルネットワークに基づく最適フィードバック制御のための比較研究と統一学習パラダイム
Authors: Yue Zhao, Jiequn Han
Abstract要約: まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの主要なアプローチの比較研究を行う。本結果は、最適性とトレーニング時間の両方の観点から、オフライン教師あり学習の優先順位を強調した。最適フィードバック制御のための統一訓練パラダイムとして,プレトレインとファインチューン戦略を提案する。
参考スコア（独自算出の注目度）: 8.860943042492847
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work is concerned with solving neural network-based feedback controllers efficiently for optimal control problems. We first conduct a comparative study of two mainstream approaches: offline supervised learning and online direct policy optimization. Albeit the training part of the supervised learning approach is relatively easy, the success of the method heavily depends on the optimal control dataset generated by open-loop optimal control solvers. In contrast, direct optimization turns the optimal control problem into an optimization problem directly without any requirement of pre-computing, but the dynamics-related objective can be hard to optimize when the problem is complicated. Our results highlight the priority of offline supervised learning in terms of both optimality and training time. To overcome the main challenges, dataset, and optimization, in the two approaches respectively, we complement them and propose the Pre-train and Fine-tune strategy as a unified training paradigm for optimal feedback control, which further improves the performance and robustness significantly. Our code is available at https://github.com/yzhao98/DeepOptimalControl.
Abstract（参考訳）: この研究は、最適制御問題に対してニューラルネットワークベースのフィードバックコントローラを効率的に解くことを目的としている。まず,オフライン教師付き学習とオンライン直接政策最適化の2つのアプローチの比較研究を行った。教師付き学習アプローチの学習部は比較的容易であるが、この手法の成功はオープンループ最適制御ソルバによって生成される最適制御データセットに大きく依存する。対照的に、直接最適化は、最適制御問題を事前計算の必要なしに直接最適化問題に変換するが、ダイナミクスに関連した目的は、問題を複雑にしたときの最適化が困難である。本研究は,オフライン教師付き学習の優先度を,最適性と訓練時間という観点で強調する。これらの課題,データセット,最適化を克服するために,これらを補完し,最適フィードバック制御のための統一トレーニングパラダイムとして事前訓練と微調整戦略を提案し,パフォーマンスとロバスト性をさらに向上させる。私たちのコードはhttps://github.com/yzhao98/DeepOptimalControlで利用可能です。

関連論文リスト

Bridging Offline and Online Reinforcement Learning for LLMs [71.48552761763158]
オフラインから半オンラインに移行する際の大規模言語モデルの微調整における強化学習手法の有効性について検討する。実験では、検証可能な数学のトレーニングに加えて、検証不可能な教育のトレーニングと、両方のベンチマーク評価のセットについて取り上げている。
論文参考訳（メタデータ） (2025-06-26T17:25:49Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-07T19:52:14Z)
Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文参考訳（メタデータ） (2024-06-11T01:20:53Z)
LLM as a Complementary Optimizer to Gradient Descent: A Case Study in Prompt Tuning [69.95292905263393]
グラデーションベースとハイレベルなLLMは、協調最適化フレームワークを効果的に組み合わせることができることを示す。本稿では,これらを相互に補完し,組み合わせた最適化フレームワークを効果的に連携させることができることを示す。
論文参考訳（メタデータ） (2024-05-30T06:24:14Z)
An Efficient Learning-based Solver Comparable to Metaheuristics for the Capacitated Arc Routing Problem [67.92544792239086]
我々は,高度メタヒューリスティックスとのギャップを著しく狭めるため,NNベースの解法を導入する。まず,方向対応型注意モデル(DaAM)を提案する。第2に、教師付き事前学習を伴い、堅牢な初期方針を確立するための教師付き強化学習スキームを設計する。
論文参考訳（メタデータ） (2024-03-11T02:17:42Z)
Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。モデルパラメータ学習における2つの重要な要素を同定する。特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文参考訳（メタデータ） (2024-02-27T15:05:32Z)
A Nonstochastic Control Approach to Optimization [26.744354103012448]
制御前提条件からの最近の手法が凸ノリティの課題を克服できることを示す。メソッドのクラスから、類似の結果を後見で得る方法を学ぶことができる。
論文参考訳（メタデータ） (2023-01-19T06:08:01Z)
Introduction to Online Nonstochastic Control [34.77535508151501]
オンラインの非確率制御では、コスト関数と仮定された力学モデルからの摂動の両方が敵によって選択される。目標は、ベンチマーククラスの政策から見て、最高の政策に対して低い後悔を得ることだ。
論文参考訳（メタデータ） (2022-11-17T16:12:45Z)
Towards a Theoretical Foundation of Policy Optimization for Learning Control Policies [26.04704565406123]
グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
論文参考訳（メタデータ） (2022-10-10T16:13:34Z)
Enforcing the consensus between Trajectory Optimization and Policy Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文参考訳（メタデータ） (2022-09-19T13:32:09Z)
Lessons from AlphaZero for Optimal, Model Predictive, and Adaptive Control [0.0]
値空間とロールアウトの近似に関するAlphaZero/TDGammonの原理が決定論的かつ最適制御問題に広く適用されていることを示す。これらの考え方は、モデル制御、適応制御、分散制御、ニューラルネットワークに基づく値とポリシー近似など、他の重要な方法論と効果的に統合することができる。
論文参考訳（メタデータ） (2021-08-20T19:17:35Z)
Learning Event-triggered Control from Data through Joint Optimization [7.391641422048646]
イベントトリガー制御戦略のモデルフリー学習のためのフレームワークを提案する。階層的強化学習に基づく新しいアルゴリズムを提案する。得られたアルゴリズムは, 資源の節約や非線形・高次元システムへのシームレスなスケールで, 高性能な制御を実現する。
論文参考訳（メタデータ） (2020-08-11T14:15:38Z)
Optimizing Wireless Systems Using Unsupervised and Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文参考訳（メタデータ） (2020-01-03T11:01:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。