論文の概要: CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality
- arxiv url: http://arxiv.org/abs/2211.06625v3
- Date: Mon, 8 May 2023 12:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 00:08:08.287706
- Title: CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards
global optimality
- Title(参考訳): CACTO: 軌道最適化による連続的アクター批判 - グローバルな最適性を目指して
- Authors: Gianluigi Grandesso, Elisa Alboni, Gastone P. Rosati Papini, Patrick
M. Wensing and Andrea Del Prete
- Abstract要約: 本稿では,Tlayy(TO)とReinforcement Learning(RL)を1つの軌道で組み合わせた,動的システムの連続制御のための新しいアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 5.0915256711576475
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a novel algorithm for the continuous control of dynamical
systems that combines Trajectory Optimization (TO) and Reinforcement Learning
(RL) in a single framework. The motivations behind this algorithm are the two
main limitations of TO and RL when applied to continuous nonlinear systems to
minimize a non-convex cost function. Specifically, TO can get stuck in poor
local minima when the search is not initialized close to a "good" minimum. On
the other hand, when dealing with continuous state and control spaces, the RL
training process may be excessively long and strongly dependent on the
exploration strategy. Thus, our algorithm learns a "good" control policy via
TO-guided RL policy search that, when used as initial guess provider for TO,
makes the trajectory optimization process less prone to converge to poor local
optima. Our method is validated on several reaching problems featuring
non-convex obstacle avoidance with different dynamical systems, including a car
model with 6D state, and a 3-joint planar manipulator. Our results show the
great capabilities of CACTO in escaping local minima, while being more
computationally efficient than the Deep Deterministic Policy Gradient (DDPG)
and Proximal Policy Optimization (PPO) RL algorithms.
- Abstract(参考訳): 本稿では、軌道最適化(TO)と強化学習(RL)を1つのフレームワークで組み合わせた動的システムの連続制御のための新しいアルゴリズムを提案する。
このアルゴリズムの背後にあるモチベーションは、非凸コスト関数を最小化するために連続非線形系に適用する場合のTOとRLの主な2つの制限である。
具体的には、検索が"良い"最小値の近くに初期化されていない場合、ローカルな最小値で立ち往生する可能性がある。
一方、連続状態と制御空間を扱う場合、RLトレーニングプロセスは過度に長く、探索戦略に強く依存する可能性がある。
そこで本アルゴリズムは,TO-guided RL ポリシサーチにより,TO の初期推定プロバイダとして使用すると,軌道最適化プロセスが局所最適値に収束しにくくなる「よい」制御ポリシを学習する。
本手法は,6次元状態の自動車モデルや3次元平面マニピュレータなど,異なる動的システムによる非凸障害物回避を特徴とする到達問題に対して検証を行った。
以上の結果から,CACTOの局所最小化能力はDDPG(Deep Deterministic Policy Gradient)やPPO(Proximal Policy Optimization)のRLアルゴリズムよりも高い計算効率が得られた。
関連論文リスト
- Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - CACTO-SL: Using Sobolev Learning to improve Continuous Actor-Critic with
Trajectory Optimization [12.115023915042617]
トラボ学習ガイドTOと強化学習(RL)は最適な制御問題を解決するための強力なツールである。
本稿では,Solev-SLのアイデアを利用したCACTOの拡張について述べる。
論文 参考訳(メタデータ) (2023-12-17T09:44:41Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - A Policy Efficient Reduction Approach to Convex Constrained Deep
Reinforcement Learning [2.811714058940267]
本稿では,最小基準点法(MNP)を一般化した条件勾配型アルゴリズムを提案する。
提案手法は,メモリコストを桁違いに削減し,その性能と効率を両立させる。
論文 参考訳(メタデータ) (2021-08-29T20:51:32Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Integrated Decision and Control: Towards Interpretable and Efficient
Driving Intelligence [13.589285628074542]
自動走行車のための解釈可能かつ効率的な意思決定・制御フレームワークを提案する。
駆動タスクを階層的に構造化されたマルチパス計画と最適追跡に分解する。
その結果,オンライン計算の効率性や交通効率,安全性などの運転性能が向上した。
論文 参考訳(メタデータ) (2021-03-18T14:43:31Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。