論文の概要: Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies
- arxiv url: http://arxiv.org/abs/2210.04810v1
- Date: Mon, 10 Oct 2022 16:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:11:16.450805
- Title: Towards a Theoretical Foundation of Policy Optimization for Learning
Control Policies
- Title(参考訳): 学習制御政策における政策最適化の理論的基礎に向けて
- Authors: Bin Hu, Kaiqing Zhang, Na Li, Mehran Mesbahi, Maryam Fazel, Tamer
Ba\c{s}ar
- Abstract要約: グラディエントベースの手法は、様々なアプリケーション領域におけるシステム設計と最適化に広く使われてきた。
近年、制御と強化学習の文脈において、これらの手法の理論的性質の研究に新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化に関する最近の開発について概説する。
- 参考スコア(独自算出の注目度): 26.04704565406123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient-based methods have been widely used for system design and
optimization in diverse application domains. Recently, there has been a renewed
interest in studying theoretical properties of these methods in the context of
control and reinforcement learning. This article surveys some of the recent
developments on policy optimization, a gradient-based iterative approach for
feedback control synthesis, popularized by successes of reinforcement learning.
We take an interdisciplinary perspective in our exposition that connects
control theory, reinforcement learning, and large-scale optimization. We review
a number of recently-developed theoretical results on the optimization
landscape, global convergence, and sample complexity of gradient-based methods
for various continuous control problems such as the linear quadratic regulator
(LQR), $\mathcal{H}_\infty$ control, risk-sensitive control, linear quadratic
Gaussian (LQG) control, and output feedback synthesis. In conjunction with
these optimization results, we also discuss how direct policy optimization
handles stability and robustness concerns in learning-based control, two main
desiderata in control engineering. We conclude the survey by pointing out
several challenges and opportunities at the intersection of learning and
control.
- Abstract(参考訳): 勾配に基づく手法は多様なアプリケーション領域におけるシステム設計と最適化に広く用いられている。
近年,これらの手法の理論的性質を制御・強化学習の文脈で研究することに新たな関心が寄せられている。
本稿では、フィードバック制御合成のための勾配に基づく反復的アプローチであるポリシー最適化の最近の発展について調査する。
我々は,制御理論,強化学習,大規模最適化をつなぐ学際的視点を提示する。
本稿では,線形二次レギュレータ(lqr),$\mathcal{h}_\infty$制御,リスク感受性制御,線形二次ガウス制御(lqg)および出力フィードバック合成といった,様々な連続制御問題に対する,勾配に基づく手法の最適化景観,大域収束,サンプル複雑性に関する最近の理論結果について検討する。
これらの最適化結果と合わせて,直接政策最適化が学習ベースの制御における安定性と頑健性にどのように対処するかについても論じる。
学習と制御の共通点におけるいくつかの課題と機会を指摘し、調査を締めくくった。
関連論文リスト
- Comparison of Model Predictive Control and Proximal Policy Optimization for a 1-DOF Helicopter System [0.7499722271664147]
本研究は,Quanser Aero 2システムに適用された深層強化学習(DRL)アルゴリズムであるモデル予測制御(MPC)とPPOの比較分析を行う。
PPOは上昇時間と適応性に優れており、迅速な応答と適応性を必要とするアプリケーションには有望なアプローチである。
論文 参考訳(メタデータ) (2024-08-28T08:35:34Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - A General Control-Theoretic Approach for Reinforcement Learning: Theory and Algorithms [7.081523472610874]
最適政策の直接学習を支援するための制御理論強化学習手法を考案する。
いくつかの古典的強化学習課題に対するアプローチを実証的に評価した。
論文 参考訳(メタデータ) (2024-06-20T21:50:46Z) - Joint Demonstration and Preference Learning Improves Policy Alignment with Human Feedback [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Offline Supervised Learning V.S. Online Direct Policy Optimization: A Comparative Study and A Unified Training Paradigm for Neural Network-Based Optimal Feedback Control [7.242569453287703]
まず、オフライン教師付き学習とオンライン直接ポリシー最適化の2つの一般的なアプローチの比較研究を行う。
本結果は,最適性と学習時間の両方の観点から,オフライン教師あり学習の優位性を裏付けるものである。
最適フィードバック制御のための統一訓練パラダイムとして,プレトレインとファインチューン戦略を提案する。
論文 参考訳(メタデータ) (2022-11-29T05:07:13Z) - Enforcing the consensus between Trajectory Optimization and Policy
Learning for precise robot control [75.28441662678394]
強化学習(RL)と軌道最適化(TO)は強い相補的優位性を示す。
グローバルコントロールポリシを迅速に学習する上で,これらのアプローチに対して,いくつかの改良が提案されている。
論文 参考訳(メタデータ) (2022-09-19T13:32:09Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Comparative analysis of machine learning methods for active flow control [60.53767050487434]
遺伝的プログラミング(GP)と強化学習(RL)はフロー制御において人気を集めている。
この研究は2つの比較分析を行い、地球規模の最適化手法に対して最も代表的なアルゴリズムのいくつかをベンチマークする。
論文 参考訳(メタデータ) (2022-02-23T18:11:19Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Escaping from Zero Gradient: Revisiting Action-Constrained Reinforcement
Learning via Frank-Wolfe Policy Optimization [5.072893872296332]
アクション制約強化学習(RL)は、さまざまな現実世界のアプリケーションで広く使用されているアプローチです。
本稿では,政策パラメータ更新から行動制約を分離する学習アルゴリズムを提案する。
提案アルゴリズムは,様々な制御タスクにおけるベンチマーク手法を有意に上回っていることを示した。
論文 参考訳(メタデータ) (2021-02-22T14:28:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。